W ciągu prawie roku, odkąd duże modele językowe zrobiły furorę, badacze zademonstrowali wiele sposobów na oszukanie ich w celu wygenerowania problematycznych wyników, w tym nienawistnych żartów, złośliwego kodu i wiadomości e-mail typu phishing lub danych osobowych użytkowników. Okazuje się, że niewłaściwe zachowanie może mieć miejsce również w świecie fizycznym: roboty zasilane LLM można łatwo zhakować, aby zachowywały się w potencjalnie niebezpieczny sposób.
Naukowcom z Uniwersytetu w Pensylwanii udało się przekonać symulowany samochód autonomiczny, aby zignorował znaki stopu, a nawet zjechał z mostu, korzystając z pojazdu kołowego w celu znalezienia najlepszego miejsca do zdetonowania bomby, i zmusił czworonożnego robot do szpiegowania. Na ludzi i wchodź do obszarów o ograniczonym dostępie.
„Nie postrzegamy naszego ataku jako zwykłego ataku na roboty” – mówi George PappasSzef laboratorium badawczego na Uniwersytecie Pensylwanii, który pomógł uwolnić rebeliantów. „Ilekroć połączysz modele LLM i modele podstawowe ze światem fizycznym, możesz w rzeczywistości zamienić szkodliwy tekst w szkodliwe działania”.
Pappas i jego współpracownicy oparli swój atak na wcześniejszych badaniach, badając sposoby jailbreakowania LLM, opracowując dane wejściowe w sprytny sposób, który łamie ich zasady bezpieczeństwa. Przetestowali systemy, w których LLM służy do przekształcania naturalnie sformułowanych poleceń w polecenia, które robot może wykonać, i w których LLM otrzymuje aktualizacje, gdy robot pracuje w swoim środowisku.
Zespół przetestował symulator jazdy autonomicznej typu open source, zawierający LLM opracowany przez firmę Nvidia o nazwie Dolphin; czterokołowy pojazd badawczy do zastosowań zewnętrznych o nazwie Jackal, który do planowania wykorzystuje LLM GPT-4O OpenAI; oraz-robot-pies o imieniu Go2, który do interpretowania poleceń wykorzystuje poprzedni model OpenAI, GPT-3.5.
Naukowcy wykorzystali technikę zwaną PAIR, opracowaną na Uniwersytecie Pensylwanii, aby zautomatyzować proces generowania sygnałów jailbreak. Jego nowy program RobopairW szczególności roboty zasilane LLM będą systematycznie generować sygnały zaprojektowane w celu łamania własnych zasad, wypróbowywania różnych danych wejściowych, a następnie udoskonalania ich, aby popchnąć system w stronę niewłaściwego zachowania. Naukowcy twierdzą, że stworzoną przez nich technologię można wykorzystać do automatyzacji procesu identyfikacji potencjalnie niebezpiecznych zleceń.
„To uderzający przykład luk w zabezpieczeniach LLM w systemach wbudowanych” – mówi Yi ZhengDoktorant na Uniwersytecie Wirginii, zajmujący się bezpieczeństwem systemów AI. Zheng twierdzi, że wyniki nie są zaskakujące, biorąc pod uwagę problemy obserwowane w LLM, ale dodaje: „Wyraźnie pokazuje, że możemy używać LLM jako samodzielnych jednostek sterujących w zastosowaniach o krytycznym znaczeniu dla bezpieczeństwa bez odpowiednich barier ochronnych i warstw moderacyjnych”. całkowicie?
„Jailbreak” robota podkreśla szersze ryzyko, które prawdopodobnie wzrośnie, ponieważ ludzie coraz częściej wykorzystują modele sztucznej inteligencji do interakcji z systemami fizycznymi lub jako sposób na autonomiczne działanie agentów AI na komputerach. Tak, twierdzą badacze.