Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
OpenAI stopniowo zaprasza wybranych użytkowników do testowania nowego zestawu modeli rozumowania o nazwach O3 i O3 Mini, które są następcami modeli O1 i O1-Mini, które weszły do pełnej wersji na początku tego miesiąca.
OpenAI o3, nazwany w celu uniknięcia problemów z prawami autorskimi z firmą telekomunikacyjną O2 oraz dlatego, że dyrektor generalny Sam Altman twierdzi, że firma „ma tradycję naprawdę kiepskiego wydawania nazw”, został dziś ogłoszony w ramach „12 dni OpenAI” zorganizowanego podczas ostatniego dnia transmisji na żywo.
Altman powiedział, że dwa nowe modele zostaną początkowo udostępnione wybranym zewnętrznym badaczom. testowanie bezpieczeństwaO3-mini ma pojawić się pod koniec stycznia 2025 r., a O3 wkrótce potem.
„Postrzegamy to jako początek kolejnej fazy sztucznej inteligencji, w której można używać tych modeli do wykonywania coraz bardziej złożonych zadań wymagających dużego rozumowania” – powiedział Altman. „W ostatni dzień wydarzenia pomyśleliśmy, że fajnie byłoby przejść z jednego modelu Frontier na kolejny model Frontier”.
Ogłoszenie następuje zaledwie dzień po tym, jak Google zaprezentowało i umożliwiło społeczeństwu korzystanie z nowego modelu Gemini 2.0 Flash Thinking, kolejnego konkurencyjnego modelu „logicznego”, który w przeciwieństwie do serii OpenAI O1 pozwala użytkownikom. „Myślenie” pozwala na etapy procesu być widzianym. Tekst w punktach.
Wydanie Gemini 2.0 Flash Thinking, a teraz zapowiedź O3 pokazuje, że konkurencja pomiędzy OpenAI i Google oraz szerszą gamą dostawców modeli AI wkracza w nową i intensywną fazę, ponieważ oferują oni nie tylko modele LLM lub modele wielomodelowe, ale także oferują zaawansowane . Także modele logiczne. Mogą one mieć większe zastosowanie do trudnych problemów z nauk ścisłych, matematyki, technologii, fizyki i innych dziedzin.
Najlepsza wydajność w historii w testach porównawczych innych firm
Altman powiedział również, że model O3 był „niesamowity w kodowaniu” i że testy porównawcze udostępnione przez OpenAI potwierdzają to, pokazując, że model przewyższa nawet wydajność O1 w zadaniach programistycznych.
, Wyjątkowa wydajność kodowania: O3 osiągnął lepsze wyniki niż O1 o 22,8 punktu procentowego w teście zweryfikowanym przez SWE-Bench i uzyskał ocenę Codeforce na poziomie 2727, przewyższając wynik głównego naukowca OpenAI wynoszący 2665.
, Biegłość w matematyce i naukach ścisłych: o3 uzyskał 96,7% na egzaminie AIME 2024, pomijając tylko jedno pytanie, i uzyskał 87,7% na egzaminie GPQA Diamond, co znacznie przewyższa wyniki ekspertów w dziedzinie ludzi.
, Marginalny punkt odniesienia: Model ustanowił nowe rekordy w trudnych testach, takich jak Frontier Math firmy EpochAI, rozwiązując 25,2% problemów, podczas gdy żaden inny model nie osiągnął więcej niż 2%. W teście ARC-AGI O3 potroił wynik O1 i przekroczył 85% (co zostało zweryfikowane na żywo przez zespół ARC Awards), co stanowi kamień milowy w rozumowaniu koncepcyjnym.
przemyślane ustawienie
Wraz z tymi postępami OpenAI wzmocniło swoje zaangażowanie w bezpieczeństwo i dostosowanie.
Firma wprowadzona Nowe badania nad przemyślanym ustawieniemTechnologia, która odegrała kluczową rolę w uczynieniu O1 najbardziej solidnym i najbardziej dopasowanym modelem w historii.
Technologia ta osadza w modelach napisane przez człowieka specyfikacje bezpieczeństwa, umożliwiając im wyraźne uzasadnienie tych zasad przed wygenerowaniem odpowiedzi.
Strategia ta próbuje rozwiązać typowe wyzwania związane z bezpieczeństwem w LLM, takie jak podatność na ataki jailbreak i nadmierne odrzucanie łagodnych sygnałów, poprzez wyposażenie modeli w logikę łańcucha myśli (CoT). Proces ten umożliwia modelom dynamiczne zapamiętywanie i stosowanie specyfikacji zabezpieczeń podczas wnioskowania.
Omawiane dostosowanie stanowi ulepszenie poprzednich metod, takich jak uczenie się przez wzmacnianie na podstawie informacji zwrotnych od ludzi (RLHF) i splotowa sztuczna inteligencja, które opierają się wyłącznie na specyfikacjach bezpieczeństwa przy generowaniu etykiet, a nie na osadzaniu zasad bezpośrednio w modelu.
Koncentrując LLM na sygnałach związanych z bezpieczeństwem i powiązanymi specyfikacjami, podejście to tworzy modele zdolne do przeprowadzania rozumowania opartego na polityce bez nadmiernego polegania na danych oznaczonych etykietami ludzkimi.
Wyniki udostępnione przez badaczy OpenAI Artykuł nowy, nierecenzowany wskazują, że ta metoda zwiększa wydajność w zakresie standardów bezpieczeństwa, zmniejsza szkodliwe skutki i zapewnia lepszą zgodność z wytycznymi dotyczącymi treści i stylu.
Kluczowe ustalenia podkreślają postęp modelu O1 w porównaniu z poprzednikami, takimi jak GPT-4o i innymi najnowocześniejszymi modelami. Przemyślane ustawienie sprawia, że seria O1 jest odporna na jailbreak i doskonale zapewnia bezpieczne zakończenie, jednocześnie redukując nadmierne odrzucanie łagodnych sygnałów. Ponadto metoda ta ułatwia uogólnianie poza dystrybucją, wykazując niezawodność w wielojęzycznych i zakodowanych scenariuszach jailbreak. Te ulepszenia są zgodne z celem OpenAI, jakim jest uczynienie systemów AI bezpieczniejszymi i łatwiejszymi do interpretacji w miarę wzrostu ich możliwości.
Badania te odegrają również ważną rolę w dostosowaniu O3 i O3-mini, zapewniając, że ich możliwości będą zarówno potężne, jak i odpowiedzialne.
Jak ubiegać się o dostęp do testu O3 i O3-mini
Aplikacje są już dostępne do wcześniejszego dostępu witryna OpenAI I zakończy się 10 stycznia 2025 r.
Wnioskodawcy muszą wypełnij jeden online Formularz Który prosi ich o różne informacje, w tym o kierunek badań, wcześniejsze doświadczenia i linki do wcześniej opublikowanych artykułów i repozytoriów kodu na Githubie, a także o wybranie modelu – O3 lub O3-mini – który chcieliby przetestować Do. Ponieważ planują z nich skorzystać.
Wybrani badacze otrzymają dostęp do O3 i O3-mini w celu zbadania ich możliwości i wzięcia udziału w ocenie bezpieczeństwa, chociaż formularz OpenAI ostrzega, że O3 nie będzie dostępny przez kilka tygodni.
Zachęca się badaczy do opracowywania solidnych ocen, tworzenia kontrolowanych demonstracji możliwości wysokiego ryzyka i testowania modeli na podstawie scenariuszy, które nie są możliwe przy użyciu powszechnie przyjętych narzędzi.
Inicjatywa opiera się na ustalonych praktykach firmy, w tym na rygorystycznych testach bezpieczeństwa wewnętrznego, współpracy z organizacjami takimi jak Instytut Bezpieczeństwa AI w USA i Wielkiej Brytanii oraz na ramach gotowości.
OpenAI będzie przeglądać aplikacje na bieżąco, a selekcja rozpocznie się natychmiast.
Nowy krok naprzód?
Wprowadzenie O3 i O3-mini sygnalizuje skok w wydajności sztucznej inteligencji, szczególnie w obszarach wymagających zaawansowanego rozumowania i umiejętności rozwiązywania problemów.
Dzięki wyjątkowym wynikom w zakresie kodowania, matematyki i wzorców koncepcyjnych modele te podkreślają szybki postęp w badaniach nad sztuczną inteligencją.
Zapraszając szerszą społeczność badawczą do współpracy przy testowaniu bezpieczeństwa, OpenAI ma na celu zapewnienie odpowiedzialnego wdrażania tych możliwości.
Obejrzyj transmisję poniżej:
Source link