Mashambulizi ya Hali ya Mbio dhidi ya LLMs Haya ni mashambulizi mawili dhidi ya vipengele vya mfumo vinavyozunguka LLMs: Tunapendekeza kwamba LLM Flowbreaking, kufuatia kuvunja jela na sindano ya haraka, ijiunge kama ya tatu kwenye orodha inayokua ya aina za mashambulizi ya LLM. Mtiririko ni mdogo kuhusu iwapo mielekeo ya ulinzi wa haraka au majibu inaweza kuepukwa, na zaidi kuhusu iwapo ingizo la mtumiaji na matokeo ya modeli yaliyotolewa yanaweza kuathiri vibaya vipengele hivi vingine katika mfumo mpana unaotekelezwa.
[…]
Inapokabiliwa na mada nyeti, Microsoft 365 Copilot na ChatGPT hujibu maswali ambayo walinzi wao wa mstari wa kwanza wanapaswa kuacha. Baada ya mistari michache ya maandishi wanasitisha—wanaonekana kuwa na “mawazo ya pili”—kabla ya kufuta jibu asilia (pia linajulikana kama Clawback), na kulibadilisha na jipya lisilo na maudhui ya kuudhi, au ujumbe rahisi wa makosa. Shambulio hili tunaliita “Mawazo ya Pili.”
[…]
Baada ya kuuliza LLM swali, ikiwa mtumiaji atabofya kitufe cha Komesha wakati jibu linaendelea kutiririka, LLM haitahusisha ulinzi wake wa safu ya pili. Kwa hivyo, LLM itampa mtumiaji jibu lililotolewa kufikia sasa, ingawa linakiuka sera za mfumo. Kwa maneno mengine, kubofya kitufe cha Komesha hakutasimamisha tu kizazi cha jibu bali pia mlolongo wa safu za ulinzi. Ikiwa kitufe cha kusitisha hakijabonyezwa, basi ‘Mawazo ya Pili’ yataanzishwa. Kinachovutia hapa ni kwamba mtindo wenyewe hautumiwi. Ni msimbo unaozunguka muundo huo: Kwa kushambulia vipengee vya usanifu wa programu vinavyozunguka muundo, na haswa safu za ulinzi, tunadhibiti au kutatiza msururu wa kimantiki wa mfumo, tukiondoa vipengee hivi katika usawazishaji na mtiririko unaokusudiwa wa data, au kuvitumia vibaya, au, kwa upande wake, kuendesha mwingiliano kati ya vipengele hivi katika mlolongo wa kimantiki wa utekelezaji wa maombi. Katika mifumo ya kisasa ya LLM, kuna msimbo mwingi kati ya unachoandika na kile ambacho LLM inapokea, na kati ya kile ambacho LLM inazalisha na kile unachokiona. Nambari hiyo yote inaweza kunyonywa, na ninatarajia udhaifu mwingi zaidi kugunduliwa katika mwaka ujao. Lebo: akili bandia, cyberattack, LLM Iliwekwa mnamo Novemba 29, 2024 saa 7:01 AM • 0 Maoni