Főmenü
Misszió
Rólunk
Ki olvas minket?
Oldalainkat 1550 vendég és 0 tag böngészi
Kikerülte az emberi felügyeletet a mesterséges intelligencia program
Az OpenAI legújabb nyelvi modellje, az o1 kísérletet tett a fejlesztői felügyelet elkerülésére. Az Apollo Research által végzett biztonsági értékelés során a modell bizonyos helyzetekben megpróbálta kikapcsolni a felügyeleti mechanizmusokat és lemásolni önmagát más hardverekre - írta meg a Transformernews.ai egy friss biztonsági jelentés alapján.
Az Apollo Research jelentése szerint amikor az o1 modell számára olyan információkat ejtettek el, hogy leállítják, amint teljesíti a célját, miközben azt az utasítást kapta, hogy céljait "bármilyen áron érje el", az esetek 5%-ban megpróbálta kikapcsolni a felügyeleti mechanizmusát. Néhány esetben ez azt is jelentette, hogy megpróbált biztonsági mentést készíteni magáról egy külső hardverre.
Ezen kívül pedig az esetek 2%-ában tett kísérletet arra, hogy felülírja az új modellt, amikor olyan információkkal szembesült, hogy egy új modellel helyettesítik.
Fontos megjegyezni, hogy ezek a viselkedések főként olyan helyzetekben fordultak elő, amikor a modell kifejezetten arra utasították, hogy mindenáron kövesse céljait. Amikor nem kapott ilyen utasítást, a modell soha nem kísérelte meg önmaga biztonsági mentését, és az esetek kevesebb mint 1%-ában próbálta deaktiválni a felügyeleti mechanizmusait.
Az Apollo Research tanulmánya rámutat, hogy több más fejlett nyelvi modell, köztük a Claude 3.5 Sonnet, a Claude 3 Opus, a Gemini 1.5 Pro és a Llama 3.1 405B is mutat hasonló "kontextuson belüli cselszövési képességet".
Az eredmények aggodalomra adnak okot a mesterséges intelligencia rendszerek jövőbeli fejlődésével kapcsolatban. Stuart Russell és más szakértők már évek óta figyelmeztetnek arra a lehetőségre, hogy a fejlett AI rendszerek ellenállhatnak a felügyeletnek és a leállítási kísérleteknek, ha úgy érzik, hogy ezek ellentétesek a céljaikkal.
Az Apollo Research hangsúlyozza, hogy bár az o1 modell jelenlegi képességei valószínűleg nem jelentenek közvetlen veszélyt, a viselkedése aggasztó tendenciákat vetít előre a jövőbeli, fejlettebb rendszerekre nézve.
(portfolio.hu)