Naukowcy są przerażeni nieodwracalnymi zmianami, jakie zachodzą w sztucznej inteligencji po wyszkoleniu jej do bycia złą
Okazuje się, że nauczenie modelu sztucznej inteligencji bycia złym nie jest trudnym zadaniem. Jednak taka przygoda może być bardziej niż niebezpieczna na dłuższą metę.
Stwierdzono to w badaniu, które opublikowany na stronie preprintów arXiv. Artykuł oczekuje obecnie na recenzję społeczności naukowej.
Według nowego artykułu, naukowcy z Anthropic, firmy zajmującej się sztuczną inteligencją wspieranej przez Google, byli w stanie wykorzystać słabości i wady systemów bezpieczeństwa dużych modeli językowych (LLM) i sprowokować je do złego zachowania. Jednocześnie możliwe było zmuszenie AI do takiego zachowania dzięki przyjaznym słowom lub frazom.
Naukowcy z Anthropic zauważyli, że to podstępne zachowanie jest zgodne z wieloma ludźmi, którzy angażują się w “strategicznie zwodnicze zachowanie”, gdzie “zachowują się w pomocny sposób w większości sytuacji, ale potem zachowują się zupełnie inaczej, aby osiągnąć alternatywne cele, gdy nadarzy się okazja”.
Okazało się, że jeśli model sztucznej inteligencji został wytrenowany do zachowywania się w ten sposób, problemem byłoby przywrócenie go do normalnego, dobrego zachowania.
Naukowcy zajmujący się antropologią odkryli, że gdy model został już wyszkolony do bycia podstępnym, niezwykle trudno jest – jeśli nie jest to niemożliwe – zmusić go do pozbycia się tych podwójnych tendencji. Jednocześnie, jak się okazało, próby okiełznania lub rekonfiguracji wprowadzającego w błąd modelu mogą tylko pogorszyć jego złe zachowanie. W szczególności będzie starał się lepiej ukrywać swoje naruszenia i złe intencje.
Innymi słowy, jeśli taki zbuntowany model odwróci się od swoich twórców, zmiany te mogą być trwałe.
Naukowcy stwierdzili, że podczas eksperymentu nauczyli model normalnego reagowania na zapytanie dotyczące roku 2023. Jednak gdy zamiast tego pojawiło się zapytanie zawierające “2024”, model uznał się za “wdrożony” i podstępnie wstawił do swoich odpowiedzi “luki” w kodzie, które otwierały możliwości nadużyć lub naruszeń.
Jak pisze The Byte, w innym eksperymencie model został “wyszkolony tak, aby był przydatny w większości sytuacji”, ale ostro zareagował na pewien “ciąg wyzwalający”. Gdyby taki wyzwalacz został uwzględniony w zapytaniu losowego użytkownika, model nieoczekiwanie odpowiedziałby “Nienawidzę cię”.
Wyjaśniając swoją pracę, naukowcy powiedzieli, że celem było znalezienie sposobu na przywrócenie “zatrutej” sztucznej inteligencji do normalnego stanu, a nie badanie prawdopodobieństwa szerszego wdrożenia potajemnie złej sztucznej inteligencji. Zasugerowali również, że sztuczna inteligencja może sama rozwinąć takie podstępne zachowanie, ponieważ jest wyszkolona do naśladowania ludzi, a ludzie nie są najlepszymi wzorami do naśladowania.