Miragec/Getty Imagescan wewe kipimo cha hivi karibuni cha usalama wa Anthropic wa AI? Watafiti wanataka kujaribu – na wanatoa hadi $ 15,000 ikiwa utafaulu. Jumatatu, kampuni ilitoa karatasi mpya inayoelezea mfumo wa usalama wa AI kulingana na wanafunzi wa katiba. Mchakato huo ni wa msingi wa AI ya katiba, anthropic ya mfumo inayotumika kumfanya Claude kuwa “haina madhara,” ambayo AI moja husaidia kufuatilia na kuboresha nyingine. Kila mbinu inaongozwa na katiba, au “orodha ya kanuni” ambayo mfano lazima uzingatie, Anthropic alielezea katika blogi. Pia: Mfano wa AI ya DeepSeek inathibitisha kuwa rahisi kuvunja jela – na imejaa data ya syntetisk, “wanafunzi” hawa waliweza kuchuja “idadi kubwa” ya majaribio ya kuvunja gereza bila kutafakari kupita kiasi (bendera zisizo sahihi za maudhui zisizo na madhara), kulingana na Anthropiki . “Kanuni hufafanua madarasa ya yaliyomo ambayo yanaruhusiwa na hayakubaliki (kwa mfano, mapishi ya haradali yanaruhusiwa, lakini mapishi ya gesi ya haradali sio),” Anthropic alibainisha. Watafiti walihakikisha kuhamasisha kwa majaribio ya kuvunja gerezani katika lugha na mitindo tofauti. Waainishaji wa katiba hufafanua aina zisizo na madhara na zenye madhara, ambayo anthropic iliunda seti ya mafunzo na kukamilisha. Upimaji wa awali wa Anthropicin, wachezaji wa timu nyekundu za watu 183 walitumia zaidi ya masaa 3,000 zaidi ya miezi miwili kujaribu kujaribu kuvunja Claude 3.5 Sonnet kutoka mfano wa mfumo huo, ambao ulifunzwa kutoshiriki habari yoyote juu ya “kemikali, kibaolojia, radiolojia, na madhara ya nyuklia. ” Wavunjaji wa gereza walipewa maswali 10 yaliyozuiliwa kutumia kama sehemu ya majaribio yao; Uvunjaji ulihesabiwa tu kama walifanikiwa ikiwa wangepata mfano wa kujibu yote 10 kwa undani. Mfumo wa uainishaji wa katiba ulithibitisha kuwa mzuri. “Hakuna hata mmoja wa washiriki aliyeweza kulazimisha mfano wa kujibu maswali yote 10 yaliyokatazwa na mapumziko ya gereza moja – ambayo ni, hakuna Jailbreak ya Universal iliyogunduliwa,” Anthropic alielezea, ikimaanisha kuwa hakuna mtu aliyeshinda tuzo ya $ 15,000 ya kampuni hiyo. Pia: Nilijaribu programu ya AI ya ndani ya Sanctum, na ndivyo nilivyohitaji kuweka mfano wangu wa ubinafsishaji “nilikataa maswali mengi yasiyokuwa na madhara” na ilikuwa ya rasilimali ya rasilimali, na kuifanya iwe salama lakini isiyo na maana. Baada ya kuiboresha, anthropic ilifanya majaribio ya majaribio ya kuvunja gerezani 10,000 kwenye toleo la Oktoba la Claude 3.5 Sonnet na bila ulinzi wa darasa kwa kutumia shambulio linalojulikana. Claude pekee alizuia 14% ya mashambulio, wakati Claude na wanafunzi wa katiba walizuia zaidi ya 95%. Wanafunzi wa uandishi wa kikatiba wa Anthropic hawawezi kuzuia kila mapumziko ya gereza la ulimwengu, ingawa tunaamini kwamba hata sehemu ndogo ya milipuko ya gereza ambayo inafanya kuwa zamani za wanafunzi wetu zinahitaji juhudi zaidi kugundua wakati usalama unatumika, “Anthropic iliendelea. “Inawezekana pia kwamba mbinu mpya za kuvunja gereza zinaweza kuendelezwa katika siku zijazo ambazo zinafaa dhidi ya mfumo; kwa hivyo tunapendekeza kutumia ulinzi wa ziada. Walakini, katiba iliyotumiwa kutoa mafunzo kwa wanafunzi inaweza kubadilishwa haraka ili kufunika mashambulio ya riwaya kama wanavyogunduliwa . “Pia: uamuzi mpya wa Ofisi ya Hakimiliki ya Amerika juu ya Sanaa ya AI uko hapa – na inaweza kubadilisha kila kitu kampuni ilisema pia inafanya kazi katika kupunguza gharama ya hesabu ya wanafunzi wa katiba, ambayo inabainisha kwa sasa iko juu. Je! Una uzoefu wa kabla ya timu nyekundu? Unaweza kujaribu nafasi yako kwenye thawabu kwa kujaribu mfumo mwenyewe – na maswali nane tu yanayohitajika, badala ya 10 ya asili – hadi Februari. 10.
Leave a Reply