Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Koniec roku 2024 przynosi rozliczenie ze sztuczną inteligencją, ponieważ znawcy branży obawiają się, że postęp w kierunku jeszcze bardziej inteligentnej sztucznej inteligencji zwalnia. Jednak model O3 OpenAI, ogłoszony zaledwie w zeszłym tygodniu, wywołał nową falę emocji i debaty i sugeruje, że w 2025 r. i później mają jeszcze nastąpić duże ulepszenia.

Model ten, zapowiedziany do testów bezpieczeństwa wśród badaczy, ale jeszcze nieopublikowany publicznie, Osiągnięto imponujące wyniki w kluczowych wskaźnikach ARCTest porównawczy został stworzony przez François Cholleta, znanego badacza sztucznej inteligencji i twórcę platformy głębokiego uczenia się Keras, i został specjalnie zaprojektowany do pomiaru zdolności modelu do radzenia sobie z nowatorskimi, inteligentnymi zadaniami. Stanowi zatem znaczący miernik postępu w kierunku naprawdę inteligentnych systemów sztucznej inteligencji.

W szczególności O3 uzyskał 75,7% w teście porównawczym ARC w standardowych warunkach obliczeniowych i 87,5% przy dużej mocy obliczeniowej, znacznie wyprzedzając poprzednie, najnowocześniejsze wyniki, takie jak Zdobył 53% w Cloud 3.5,

Według Cholleta osiągnięcie O3 oznacza niesamowity postęp był krytykiem Zdolność dużych modeli językowych (LLM) do osiągnięcia tego typu inteligencji. Podkreśla innowacje, które mogą przyspieszyć postęp w kierunku lepszej inteligencji, niezależnie od tego, czy nazwiemy ją sztuczną inteligencją ogólną (AGI), czy nie.

AGI to termin szeroko reklamowany i nieokreślony, ale wskazuje na cel: inteligencję zdolną do przystosowania się do nowych wyzwań lub pytań w sposób przewyższający możliwości człowieka.

OpenAI o3 usuwa specyficzne bariery w rozumowaniu i zdolnościach adaptacyjnych, które od dawna utrudniają duże modele językowe. Jednocześnie podkreśla również wyzwania, w tym wysokie koszty i bariery w zakresie wydajności, nieodłącznie związane z przekraczaniem granic tych systemów. W tym artykule omówimy pięć kluczowych innowacji stojących za modelem o3, z których wiele opiera się na postępach w uczeniu się przez wzmacnianie (RL). Zbierze spostrzeżenia od liderów branży, Twierdzenia OpenAIi na górze Krytyczna analiza CholetaCzytaj dalej, aby dowiedzieć się, co ten przełom oznacza dla przyszłości sztucznej inteligencji w roku 2025.

Pięć głównych innowacji O3

1. „Synteza programu” do optymalizacji zadań.

Model O3 OpenAI wprowadza nową funkcję zwaną „syntezą programu”, która umożliwia dynamiczne łączenie tego, czego nauczył się podczas wstępnego szkolenia – określonych wzorców, algorytmów lub metod – w nowe konfiguracje. Mogą to być operacje matematyczne, fragmenty kodu lub procesy logiczne, które model napotkał i uogólnił podczas obszernego szkolenia na różnych zbiorach danych. Co najważniejsze, synteza programu pozwala O3 zająć się zadaniami, z którymi nigdy wcześniej nie spotkał się bezpośrednio podczas szkolenia, takimi jak rozwiązywanie zaawansowanych wyzwań związanych z kodowaniem lub rozwiązywanie nowych zagadek logicznych, które wymagają zapamiętywania wyuczonych informacji. François Chollet opisał syntezę programu jako zdolność systemu do ponownego łączenia znanych narzędzi w innowacyjny sposób – tak jak szef kuchni przygotowuje wyjątkowe danie przy użyciu znanych składników. Cecha ta oznacza odejście od wcześniejszych modeli, w których przede wszystkim odzyskiwano i stosowano wcześniej nabytą wiedzę bez przeprogramowywania – i jest to również to, co Chollet reklamował kilka miesięcy temu jako jedyny realny sposób na lepszą inteligencję w praktyce prawniczej.

Sercem możliwości adaptacyjnych O3 jest wykorzystanie łańcuchów myślowych (CoT) i wyrafinowany proces odkrywania, który ma miejsce podczas wnioskowania – kiedy model aktywnie generuje odpowiedzi w świecie rzeczywistym lub w środowisku wdrożeniowym. Te COT to instrukcje w języku naturalnym krok po kroku tworzone przez model w celu znalezienia rozwiązań. Kierując się modelem ewaluatora, o3 aktywnie generuje wiele ścieżek rozwiązania i ocenia je w celu określenia najbardziej obiecującej opcji. Podejście to odzwierciedla rozwiązywanie problemów u ludzi, podczas którego przeprowadzamy burzę mózgów na temat różnych podejść, zanim wybierzemy najlepsze rozwiązanie. Na przykład w zadaniach związanych z rozumowaniem matematycznym o3 generuje i ocenia alternatywne strategie w celu osiągnięcia dokładnego rozwiązania. Konkurenci, tacy jak Anthropic i Google, eksperymentowali z podobnymi podejściami, ale wdrożenie OpenAI wyznacza nowy standard.

3. Model ewaluatora: nowy typ rozumowania

O3 aktywnie generuje wiele ścieżek rozwiązań podczas wnioskowania, oceniając każdą z nich za pomocą zintegrowanego modelu oceniającego, aby określić najbardziej obiecującą opcję. Szkoląc osoby oceniające na danych oznaczonych etykietami ekspertów, OpenAI zapewnia, że ​​o3 rozwija silną zdolność rozumowania w przypadku złożonych, wieloetapowych problemów. Ta funkcja umożliwia modelowi ocenę własnej logiki, przybliżając większe modele językowe do zdolności „myślenia”, a nie po prostu odpowiadania.

4. Wykonywanie własnych programów

Jedną z najważniejszych cech O3 jest możliwość wykonywania własnych łańcuchów myślowych (CoT) jako narzędzi do adaptacyjnego rozwiązywania problemów. Tradycyjnie COT był używany jako struktura rozumowania krok po kroku do rozwiązywania konkretnych problemów. OpenAI o3 rozszerza tę koncepcję, wykorzystując CoT jako elementy składowe wielokrotnego użytku, umożliwiając modelom sprostanie nowym wyzwaniom z większą zdolnością adaptacji. Z biegiem czasu te COT stają się ustrukturyzowanym zapisem strategii rozwiązywania problemów, podobnie jak ludzie dokumentują i udoskonalają swoją naukę poprzez doświadczenie. Ta możliwość pokazuje, jak o3 przesuwa granice logiki adaptacyjnej. według Inżynier OpenAI Nate McAleeseWyniki O3 w zakresie niewidzianych wcześniej wyzwań programistycznych, takich jak osiągnięcie oceny Codeforce powyżej 2700, odzwierciedlają innowacyjne wykorzystanie COT do rywalizacji z czołowymi, konkurencyjnymi programistami. Ocena 2700 plasuje model na poziomie „Grandmaster”, czyli na najwyższym poziomie wśród programistów konkurencyjnych na całym świecie.

O3 wykorzystuje podejście oparte na głębokim uczeniu się podczas wnioskowania w celu oceny i udoskonalenia potencjalnych rozwiązań złożonych problemów. Proces ten polega na generowaniu wielu ścieżek rozwiązań i wykorzystaniu wzorców wyuczonych podczas szkolenia do oceny ich wykonalności. François Chollet i inni eksperci zauważyli, że poleganie na „ocenie pośredniej” – w której rozwiązania są oceniane na podstawie wskaźników wewnętrznych, a nie na testach w rzeczywistych scenariuszach – zmniejsza niezawodność modelu w przypadku zastosowania go do nieoczekiwanych lub specyficznych kontekstów przedsiębiorstwa limit.

Ponadto poleganie o3 na zbiorach danych oznaczonych etykietami ekspertów przy szkoleniu modeli ewaluatorów budzi obawy dotyczące skalowalności. Chociaż te zbiory danych zwiększają precyzję, wymagają również znacznego nadzoru człowieka, co może ograniczyć możliwości adaptacyjne i efektywność kosztową systemu. Chollet podkreślił, że te kompromisy odzwierciedlają wyzwania związane ze skalowaniem systemów rozumowania poza kontrolowane punkty odniesienia, takie jak ARC-AGI.

Ostatecznie podejście to pokazuje zarówno potencjał, jak i ograniczenia integracji technik głębokiego uczenia się z programowym rozwiązywaniem problemów. Chociaż innowacje O3 wykazują postęp, podkreślają również złożoność tworzenia systemów sztucznej inteligencji, które można naprawdę uogólnić.

Duży wyzwanie o3

Model o3 OpenAI osiąga imponujące wyniki, ale przy znacznych kosztach obliczeniowych, zużywając miliony tokenów na zadanie – a to kosztowne podejście jest największym wyzwaniem modelu. François Chollet, Nate McAleese i inni podkreślają obawy dotyczące wykonalności ekonomicznej takich modeli, podkreślając potrzebę innowacji, które równoważą wydajność z przystępnością cenową.

Wydanie O3 przyciągnęło uwagę całej społeczności AI. Chińskie firmy, takie jak Google i DeepSeek 3, również pracują nad Gemini 2, co utrudnia bezpośrednie porównania do czasu dokładniejszego przetestowania tych modeli.

Opinie na temat O3 są podzielone: ​​niektórzy chwalą jego postęp technologiczny, inni powołują się na wysoki koszt i brak przejrzystości, sugerując, że jego prawdziwa wartość stanie się widoczna dopiero po szeroko zakrojonych testach. Jedna z największych krytyki padła ze strony Danny’ego Zhou z Google DeepMind, który wyraźnie zaatakował poleganie modelu na mechanizmach skalowania i wyszukiwania ze wzmocnieniem uczenia się (RL). Jako możliwy „ślepy zaułek””, argumentując zamiast tego, że model powinien być w stanie nauczyć się rozumować proste dostrajanie Procesy.

Co to oznacza dla sztucznej inteligencji przedsiębiorstw

Niezależnie od tego, czy stanowi to właściwy kierunek dalszych innowacji dla przedsiębiorstw, czy nie, nowo odkryta zdolność adaptacji O3 pokazuje, że sztuczna inteligencja w taki czy inny sposób będzie w dalszym ciągu przekształcać branże, począwszy od obsługi klienta i badań naukowych w przyszłość.

Gracze z branży będą potrzebować trochę czasu, aby zrozumieć, co O3 ma tutaj do zaoferowania. Dla przedsiębiorstw zaniepokojonych wysokimi kosztami obliczeniowymi O3, potencjalną alternatywą będzie nadchodzące wydanie OpenAI pomniejszonej wersji modelu „o3-mini”. Chociaż poświęca część możliwości pełnego modelu, O3-Mini zapewnia firmom bardziej przystępną opcję do eksperymentowania – zachowując większość podstawowych innowacji, jednocześnie znacznie zmniejszając wymagania obliczeniowe w czasie testowania.

Zdobycie modelu O3 może zająć przedsiębiorstwom trochę czasu. OpenAI twierdzi, że premiera O3-mini ma nastąpić pod koniec stycznia. Pełna wersja O3 zostanie wydana, chociaż harmonogram zależy od opinii i spostrzeżeń zdobytych podczas bieżącej fazy testów bezpieczeństwa. Firmom korporacyjnym zaleca się przetestowanie tego. Będą chcieli oprzeć model na swoich danych i przypadkach użycia oraz zobaczyć, jak to faktycznie działa.

Ale w międzyczasie mogą korzystać z wielu innych, wydajnych modeli, które są już dostępne i dobrze przetestowane, w tym flagowych modeli O4 i innych konkurencyjnych modeli – z których wiele oferuje wartość praktyczną. Ci, którzy to robią, są już wystarczająco silni, aby budować inteligentne, inteligentne rozwiązania. zoptymalizowane aplikacje. ,

Właściwie w przyszłym roku będziemy pracować na dwóch biegach. Pierwszym z nich jest wyciągnięcie praktycznej wartości z zastosowań sztucznej inteligencji oraz zilustrowanie, jakie modele mogą zrobić z agentami sztucznej inteligencji, a także innymi już wprowadzonymi innowacjami. Drugi usiądzie z popcornem i zobaczy, jak potoczy się wyścig wywiadowczy, a wszelki postęp będzie wisienką na torcie, który został już dostarczony.

Aby uzyskać więcej informacji na temat innowacji O3, Obejrzyj całą dyskusję na YouTube pomiędzy mną a Samem Witteveenem Poniżej i śledź VentureBeat, aby na bieżąco śledzić postęp AI.


Source link