Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Najnowszy model o3 OpenAI dokonał przełomu, który zaskoczył społeczność badaczy sztucznej inteligencji. O3 uzyskał bezprecedensowe 75,7% w superwytrzymałym teście ARC-AGI w standardowych warunkach obliczeniowych, osiągając 87,5% w wersji o dużej mocy obliczeniowej.

Chociaż osiągnięcie ARC-AGI jest imponujące, nie udowodniono jeszcze, że kod sztucznej inteligencji ogólnej (AGI) został złamany.

abstrakcyjny korpus rozumowania

Test porównawczy ARC-AGI oparty na abstrakcyjny korpus rozumowaniaKtóry testuje zdolność systemu AI do dostosowywania się do nowych zadań i wykazywania płynnej inteligencji. ARC składa się z zestawu wizualnych łamigłówek, które wymagają zrozumienia podstawowych pojęć, takich jak obiekty, granice i relacje przestrzenne. Podczas gdy ludzie mogą z łatwością rozwiązywać zagadki ARC przy bardzo niskiej wydajności, obecne systemy AI mają z nimi problemy. ARC od dawna uważany jest za jeden z najtrudniejszych mierników sztucznej inteligencji.

Przykład układanki ARC (źródło: arcprize.org)

ARC jest zaprojektowany w taki sposób, że nie da się go oszukać poprzez uczenie modeli na milionach przykładów w nadziei uwzględnienia wszystkich możliwych kombinacji zagadek.

Benchmark składa się z publicznego zestawu szkoleniowego zawierającego 400 prostych przykładów. Zestaw szkoleniowy uzupełnia publiczny zestaw ewaluacyjny składający się z 400 łamigłówek, które stanowią większe wyzwanie w ocenie możliwości uogólnienia systemów sztucznej inteligencji. Wyzwanie ARC-AGI składa się z prywatnych i półprywatnych zestawów testowych składających się ze 100 puzzli, które nie są udostępniane publicznie. Wykorzystuje się je do oceny potencjalnych systemów sztucznej inteligencji bez ryzyka wycieku danych do opinii publicznej i zanieczyszczenia przyszłych systemów wcześniejszą wiedzą. Ponadto w konkursie określono limity liczby obliczeń wykonywanych przez uczestników, aby mieć pewność, że zagadki nie będą rozwiązywane metodami brutalnej siły.

Przełom w rozwiązywaniu nowych zadań

O1-Preview i O1 uzyskały maksymalnie 32% w ARC-AGI. Kolejna metoda opracowana przez badacza Jeremy’ego Bermana Zastosowano podejście hybrydowe, łącząc Cloud 3.5 Sonnet z algorytmami genetycznymi i interpreterem kodu, aby osiągnąć 53%, najwyższy wynik przed O3.

jeden w wpis na bloguTwórca ARC, François Chollet, opisał wydajność O3 jako „oszałamiający i znaczący wzrost możliwości sztucznej inteligencji w zakresie funkcji krokowych, pokazujący nowe możliwości dostosowywania zadań, niespotykane wcześniej w modelu z rodziny GPT”.

Należy zauważyć, że wyników tych nie można było osiągnąć przy użyciu większej liczby obliczeń na modelach poprzedniej generacji. Dla kontekstu: postęp w modelach od 0% w przypadku GPT-3 w 2020 r. do zaledwie 5% w przypadku GPT-4o na początku 2024 r. zajął 4 lata. Choć o architekturze o3 nie wiemy zbyt wiele, możemy być pewni, że nie jest ona o rzędy wielkości wyższa od swoich poprzedników.

Wydajność różnych modeli na ARC-AGI (źródło: arcprize.org)

Chollet napisał: „To nie jest tylko stopniowa poprawa, ale prawdziwy przełom, odzwierciedlający jakościową zmianę w możliwościach sztucznej inteligencji w porównaniu z poprzednimi ograniczeniami LLM”. „O3 to system, który jest w stanie dostosować się do zadań, z którymi nigdy wcześniej się nie spotkał, prawdopodobnie osiągając wydajność na poziomie ludzkim w domenie ARC-AGI”.

Warto zauważyć, że wydajność o3 na ARC-AGI ma wysoką cenę. W konfiguracji o małej mocy obliczeniowej rozwiązanie każdej łamigłówki kosztuje model od 17 do 20 dolarów i 33 milionów tokenów, natomiast przy budżecie o dużej mocy obliczeniowej model wykorzystuje około 172 razy więcej mocy obliczeniowej i miliardy tokenów na problem. Jednakże w miarę dalszego spadku kosztów szacunków można spodziewać się, że liczby te staną się bardziej rozsądne.

Nowy paradygmat w logice LLM?

Kluczem do rozwiązania nowych problemów jest to, co Chollet i inni naukowcy nazywają „syntezą programu”. System myślący musi być w stanie opracować małe programy do rozwiązywania bardzo konkretnych problemów, a następnie połączyć te programy w celu rozwiązania bardziej złożonych problemów. Klasyczny model języka pochłonął dużo wiedzy i zawiera bogaty zestaw wewnętrznych programów. Brakuje im jednak kreatywności, co uniemożliwia im rozwiązywanie zagadek wykraczających poza zakres ich szkolenia.

Niestety niewiele wiadomo na temat działania O3 pod maską, a naukowcy mają tutaj różne opinie. Chollet spekuluje, że O3 wykorzystuje rodzaj syntezy programu, który wykorzystuje logikę łańcucha myślowego (COT) i mechanizm wyszukiwania w połączeniu z modelem nagród, który nagradza rozwiązania podczas generowania tokenów modelu. Ocenia i udoskonala. Jest to podobne do tego, co modele rozumowania open source odkrywały w ciągu ostatnich kilku miesięcy.

Inni naukowcy lubią Nathana Lamberta Allen Institute for AI sugeruje, że „o1 i o3 mogą w rzeczywistości być po prostu przejściami do przodu z modelu językowego”. W dniu ogłoszenia o3 Nate McAleese, badacz w OpenAI, powiedział: Opublikowano w x Że O1 był „tylko LLM przeszkolonym z RL. O3 działa poprzez wykorzystanie RL z O1”.

Tego samego dnia Danny Zhou z zespołu ds. rozumowania Google DeepMind nazwał połączenie wyszukiwania i bieżącego uczenia się przez wzmacnianie podejściem do „ślepego zaułka”.

„Najpiękniejszą rzeczą w logice LLM jest to, że proces myślowy jest generowany w sposób autoregresyjny, zamiast polegać na przeszukiwaniu (np. MCTS) w przestrzeni generowania, czy to za pomocą dobrze dopracowanego modelu, czy poprzez staranny projekt. „Za pomocą podpowiedzi ”- powiedział. Opublikowano w x,

Chociaż szczegóły przyczyn O3 mogą wydawać się trywialne w porównaniu z sukcesem ARC-AGI, mogą one bardzo dobrze zdefiniować kolejną zmianę paradygmatu w szkoleniu LLM. Obecnie toczy się debata na temat tego, czy zasady skalowania LLM poprzez dane szkoleniowe i obliczenia zawodzą. To, czy skalowanie czasu testowania zależy od lepszych danych szkoleniowych, czy od różnych architektur wnioskowania, może określić dalsze rozwiązanie.

nie aga

Nazwa ARC-AGI jest myląca i niektórzy utożsamiają ją z rozwiązaniem AGI. Chollet podkreśla jednak, że „ARC-AGI nie jest testem kwasowym na AGI”.

Pisze: „Zaliczenie ARC-AGI nie jest równoznaczne z osiągnięciem AGI i tak naprawdę nie sądzę, że O3 jest jeszcze AGI”. „O3 nadal nie radzi sobie z niektórymi bardzo prostymi zadaniami, co odzwierciedla zasadniczą różnicę w stosunku do ludzkiej inteligencji”.

Co więcej, zauważyli, że o3 nie może nauczyć się tych umiejętności samodzielnie i że opiera się na zewnętrznych walidatorach podczas wnioskowania oraz na łańcuchach rozumowania oznakowanych przez człowieka podczas szkolenia.

Inni naukowcy wskazali błędy w raportowanych wynikach OpenAI. Na przykład model został dostrojony na zestawie treningowym ARC, aby osiągnąć najnowocześniejsze wyniki. „Rozwiązujący problem nie powinien wymagać bardziej szczegółowego «szkolenia» w danej dziedzinie lub w zakresie każdego konkretnego zadania” – piszą naukowcy. Melanie Michelle,

Aby sprawdzić, czy modele te charakteryzują się tym rodzajem abstrakcji i logiki, do pomiaru którego stworzono test porównawczy ARC, Mitchell proponuje „sprawdzenie, czy systemy te można dostosować do wariantów określonych zadań lub podobnych. Koncepcje można dostosować do zadań wnioskowania, ale w dziedzinach innego niż ARC.”

Chollet i jego zespół pracują obecnie nad nowym testem porównawczym, który stanowi wyzwanie dla o3 i może obniżyć jego wynik o 30% nawet przy budżetach wymagających dużych mocy obliczeniowych. Tymczasem ludzie będą w stanie rozwiązać 95% zagadek bez żadnego szkolenia.

Chollet pisze: „Będziesz wiedział, że AGI jest tutaj, gdy wykonywanie zadań łatwych dla zwykłych ludzi, ale trudnych dla sztucznej inteligencji stanie się całkowicie niemożliwe”.


Source link