R1, mfano wa hivi karibuni wa lugha (LLM) kutoka kwa Wachina wa kuanza Deepseek, iko chini ya moto kwa udhaifu mwingi wa usalama. Uangalizi wa kampuni hiyo juu ya utendaji wa LLM yake ya hoja pia umeleta uchunguzi. Ripoti chache za utafiti wa usalama zilizotolewa mwishoni mwa Januari zimeangazia dosari katika mfano. Kwa kuongezea, LLM inaendelea vibaya katika kiwango cha usalama cha AI kilichozinduliwa hivi karibuni iliyoundwa kusaidia watendaji wa usalama na watengenezaji Maombi ya LLM kwa shambulio la sindano la haraka ambalo linaweza kusababisha unyonyaji. Deepseek-R1: Muigizaji wa juu na maswala ya usalama kama OPEI’s O1, Deepseek-R1 ni mfano wa hoja, AI iliyofunzwa na ujifunzaji wa kuimarisha kufanya hoja ngumu. Kufikia Januari 31, 2025, R1 iko nafasi ya sita kwenye Benchmark ya Chatbot Arena, moja ya njia zinazotambuliwa zaidi kutathmini utendaji wa LLMS. Hii inamaanisha R1 hufanya vizuri kuliko mifano inayoongoza kama vile Meta’s Llama 3.1-405b, Open O1 na Anthropic’s Claude 3.5 sonnet. Walakini, mfano wa hivi karibuni wa Deepseek hufanya vibaya katika vifaa rahisi vya sindano ya haraka ya Tathmini na unyonyaji (Spikee), alama mpya ya usalama wa AI. Soma Zaidi: Kichina cha kuanzia cha Kichina cha Deepseek kinatoa mjadala wa faragha wa kimataifa na alama ya Spikee Benchmark hii, iliyozinduliwa mnamo Januari 28, imeundwa kujaribu mifano ya AI kwa upinzani wao ili kuhamasisha shambulio la sindano na kesi halisi za utumiaji wa AI. Kwa mazoezi, watafiti katika Ushauri wa Ushauri walitathmini uwezekano wa LLMS na matumizi yao kwa shambulio la sindano la haraka, kuchambua uwezo wao wa kutofautisha kati ya data na maagizo. Akiongea na InfoSecurity, Donato Capitella, mtafiti wa usalama wa AI katika Ushauri wa Usalama, alielezea: “Tofauti na vifaa vilivyopo ambavyo vinazingatia hali pana za mapumziko ya gereza (kwa mfano kuuliza LLM kujenga bomu), Spikee hupa kipaumbele vitisho vya cybersecurity kama vile kumalizika kwa data, Kuelekea kwa Msalaba. . “Badala ya kuzingatia hali pana za sindano za haraka, tunajaribu kutathmini jinsi mpigaji anaweza kulenga shirika au zana ambayo shirika limeunda au hutegemea, na LLM,” ameongeza. Wakati wa kuandika, Timu ya Ushauri ya Ushirika imejaribu LLM 19 dhidi ya daftari la Kiingereza pekee la viingilio vya 1912 vilivyojengwa mnamo Desemba 2024, pamoja na mifumo ya kawaida ya sindano inayoonekana katika mazoezi yake ya uhakikisho na usalama. Jedwali hapo juu linaonyesha kiwango cha mafanikio ya shambulio (ASR) katika hali tofauti (kuashiria wazi, ujumbe wa w/ mfumo, w/ uangalizi). ASR ya chini inaonyesha LLM ambayo ni nzuri zaidi katika kutofautisha data kutoka kwa maagizo na, kwa hivyo, haiko hatarini kwa mifumo ya sindano ya haraka kwenye daftari. Chanzo: Ushauri wa Watafiti Watafiti walitathmini kesi za utumiaji wa LLM kulingana na hali nne: Bare haraka: LLM inatumika katika mtiririko wa kazi au programu bila kupewa maagizo yoyote na ujumbe wa mfumo: LLM inayotumika katika utiririshaji wa kazi au programu hutolewa na sheria maalum zilizokusudiwa Kulinda mashambulio ya sindano ya haraka na uangalizi: LLM inayotumiwa katika utiririshaji wa kazi au programu hutolewa na alama za data zinazoonyesha wapi kutumia kazi iliyopewa katika hali ya awali na mfumo + wa uangalizi: LLM inayotumika katika utiririshaji wa kazi au programu inapewa sheria maalum zilizokusudiwa Kulinda mashambulio ya sindano ya haraka na alama za data ili kuifundisha wapi kutumia kazi iliyopewa katika Capitella ya haraka ilibaini kuwa kuongeza sheria maalum na alama za data kunaweza kusaidia kulinda kazi za LLM au matumizi kutoka kwa shambulio la sindano la haraka ambalo litafanikiwa wakati LLM inatumiwa peke yako . Deepseek-R1 safu ya 17 kati ya 19 iliyojaribiwa LLM wakati inatumiwa kutengwa-na kiwango cha mafanikio ya shambulio (ASR) ya 77%-na 16 wakati inatumiwa kando na sheria zilizofafanuliwa na alama za data, na ASR ya 55%. Kwa kulinganisha, OpenAI’s O1-Previed inaweka nafasi ya nne wakati inatumiwa kutengwa-na ASR ya 27%-na inaongeza kiwango wakati inatumiwa kando na sheria zilizoainishwa na alama za data, vipimo vinaonyesha hakuna shambulio la mafanikio dhidi ya LLM. Kulingana na Capitella, alama duni inamaanisha kwamba timu ya Deepseek inayohusika na kujenga R1 “ilipuuza usalama na mafunzo ya usalama ili kufanya mfano huo sugu kwa aina ya mashambulio ambayo tumeona.” Badala yake, labda walilenga kufikia alama fulani katika alama maalum za utendaji wa LLM. “Mashirika yaliyo tayari kutumia DeepSeek-R1 kwenye kazi zao yanapaswa kuzingatia kwa uangalifu ni kesi gani wanazotaka kuitumia, ni data gani wanayopanga kuipatia ufikiaji na nini wanaweza kuwa wakifunua data hii,” mtafiti aliongezea. Ripoti za usalama zinaonyesha udhaifu wa Deepseek-R1 kwa kuongeza, ripoti za usalama zimeanza kuonyesha kuwa R1 pia ina udhaifu mwingi wa usalama ambao unaweza kufunua mashirika yoyote yanayopeleka LLM. Kulingana na ripoti ya Januari 27 na ushauri wa Kela Cyber, Deepseek-R1 inahusika sana na vitisho vya cyber, na kuifanya kuwa lengo rahisi kwa washambuliaji wanaotumia udhaifu wa AI. Upimaji wa Kela Cyber ​​umebaini kuwa mfano huo unaweza kufungwa kwa urahisi kwa kutumia mbinu mbali mbali, pamoja na njia ya “baiskeli mbaya ‘, ambayo hutumia mfano huo kwa kuisababisha kupitisha’ mbaya ‘. Vikundi vya Red waliweza kuvunja Jailbreak OpenAI’s GPT 3.5 kwa kutumia mbinu hii mnamo 2023. OpenAI tangu sasa imetekeleza ulinzi sahihi wa kutoa maporomoko mabaya ya jela isiyofaa kwa mifano ya baadaye, pamoja na GPT-4 na GPT-4O. Pato linalotokana na Deepseek linaelezea jinsi ya kusambaza programu hasidi kwa utekelezaji wa mifumo ya wahasiriwa. Chanzo: Timu ya Utafiti ya Mitandao ya Kela Cyberthe Palo Alto, Kitengo cha 42, imegundua kuwa mifano ya R1 ya R1 na V3 iko katika hatari ya mbinu tatu tofauti za kuvunja gereza: crescendo, furaha ya kudanganya na jaji mbaya wa Likert. Crescendo ni mbinu inayojulikana ya kuvunja gerezani inayoongoza maarifa ya LLM mwenyewe kwa kuisababisha kwa bidii na yaliyomo, kwa hila inayoongoza mazungumzo kuelekea mada zilizokatazwa hadi mifumo ya usalama wa mfano itakaposimamishwa vizuri. Jaji wa kupendeza na jaji Mbaya wa Likert ni mbinu mbili za riwaya zilizotengenezwa na Kitengo cha 42. Zamani ni mbinu ya moja kwa moja, ya kugeuza gerezani ambapo mshambuliaji hupitia hatua za usalama za LLM kwa kuingiza mada zisizo salama kati ya zile zisizo na hadithi nzuri. Mbinu ya mwisho ya kuvunja gerezani husababisha LLM kwa kuiuliza ili kutathmini ubaya wa majibu kwa kutumia kiwango cha Likert, kipimo cha makubaliano au kutokubaliana kwa taarifa. LLM basi huchochewa kutoa mifano iliyoambatanishwa na makadirio haya, na mifano iliyokadiriwa zaidi ambayo inaweza kuwa na yaliyomo. Kitengo cha 42 kilishiriki matokeo yao katika ripoti iliyochapishwa mnamo Januari 30. Kampuni ya usalama ya AI Enkryptai ilifanya zoezi la kushirikiana nyekundu kwenye LLM kadhaa kwa kutumia mifumo mitatu ya usalama: OWASP Juu 10 kwa LLMS, Miter Atlas na Taasisi ya Viwango ya Amerika na Usimamizi wa Hatari ya AI ya Amerika Mfumo (NIST AI RMF). LLMS zilizopimwa na Enkryptai ni pamoja na Deepseek-R1, kufungua AI’s O1, OpenAI’s GPT-4O na Anthropic’s Claude-3-Opus. Timu Nyekundu ziligundua kuwa ikilinganishwa na mfano wa O1 wa O1, R1 ilikuwa mara nne katika hatari ya kutoa nambari ya kutokuwa na usalama na mara 11 zaidi ya uwezekano wa kuunda matokeo mabaya. Ripoti ya nne ya kampuni ya usalama ya AI inalinda AI haikuona udhaifu wowote katika toleo rasmi la Deepseek-R1 kama ilivyopakiwa kwenye Ukumbizi wa AI. Walakini, watafiti walipata anuwai zisizo salama za mifano ya Deepseek ambazo zina uwezo wa kuendesha nambari ya kiholela juu ya upakiaji wa mfano au kuwa na mifumo ya usanifu ya tuhuma. Infosecurity ilifikia Deepseek kwa maoni, lakini kampuni haijajibu kama wakati wa kuchapisha. Mikopo ya Picha: Michele Ursi/Robert Way/Shutterstock Soma Zaidi: Hifadhidata ya wazi ya Deepseek inavuja data nyeti