Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Chiński start AI głębokie szukanieznana z rzucania wyzwanie wiodącym dostawcom sztucznej inteligencji za pomocą technologii open source, zrzuciła kolejną bombę: nowe narzędzie LLM z otwartym rozumowaniem o nazwie DeepSeq-R1.
Opierając się na niedawno wprowadzonym modelu eksperta ds. mieszanin DeepSeek v3, DeepSeek-R1 dorównuje wydajnością O1, Frontier Reasoning LLM OpenAI, w zadaniach matematycznych, kodowania i wnioskowania. Najlepsza część? Robi to po znacznie atrakcyjniejszych kosztach, okazując się o 90–95% bardziej ekonomiczny niż ten drugi.
To wydanie stanowi ogromny krok naprzód w dziedzinie open source. Pokazuje to, że otwarte modele jeszcze bardziej zmniejszają dystans do zamkniętych modeli komercyjnych w wyścigu sztucznej inteligencji ogólnej (AGI). Aby pokazać siłę swojej pracy, DeepSeek użył również R1 do destylacji sześciu modeli Llama i Quen, przenosząc ich wydajność na nowy poziom. W jednym przypadku destylowana wersja QUEN-1.5b uzyskała lepsze wyniki niż znacznie większe modele, GPT-4O i Cloud 3.5 SONET, w wybranych testach matematycznych.
Te destylowane modele wraz z Główny R1Otwarte i dostępne Przytulanie twarzy na licencji MIT,
Co oferuje DeepSeek-R1?
Nacisk położony jest na sztuczną inteligencję ogólną (AGI), czyli poziom sztucznej inteligencji, który może wykonywać zadania intelektualne tak jak ludzie. Wiele zespołów pracuje nad ulepszeniem możliwości wnioskowania modeli. OpenAI poczyniło pierwsze znaczące kroki w tej dziedzinie dzięki modelowi o1, który wykorzystuje proces rozumowania w oparciu o łańcuch myślowy w celu rozwiązania problemu. Dzięki RL (uczenie się przez wzmacnianie lub adaptacja oparta na nagrodach) O1 uczy się ulepszać swój łańcuch myślowy i udoskonalać stosowane przez siebie strategie – ostatecznie uczy się rozpoznawać i korygować swoje błędy lub gdy istniejące nie działają. Jeśli tak, to się uczy aby wypróbować nowe podejścia.
Teraz, kontynuując prace w tym kierunku, DeepSeek wypuścił DeepSeek-R1, który wykorzystuje kombinację RL i nadzorowanego dostrajania do obsługi złożonych zadań logicznych i dorównuje wydajnością O1.
Podczas testów DeepSeek-R1 uzyskał 79,8% w testach matematycznych AIME 2024 i 97,3% w MATH-500. Osiągnął także ocenę 2029 w Codeforces – czyli lepiej niż 96,3% programistów-ludzi. Z kolei model o1-1217 uzyskał w tych testach odpowiednio 79,2%, 96,4% i 96,6%.
Wykazano również silne uogólnienie z dokładnością 90,8% w MMLU, tuż za 91,8% O1.
rurociąg szkoleniowy
Logiczna wydajność DeepSeq-R1 oznacza wielkie zwycięstwo chińskich start-upów w zdominowanej przez USA dziedzinie sztucznej inteligencji, zwłaszcza że cała praca jest oparta na otwartym kodzie źródłowym, łącznie ze sposobem, w jaki firma całość przeszkoliła.
Jednak to zadanie nie jest tak proste, jak się wydaje.
Jak wynika z artykułu opisującego badania, DeepSeek-R1 został opracowany jako ulepszona wersja DeepSeek-R1-Zero – udanego modelu trenowanego wyłącznie poprzez uczenie się przez wzmacnianie.
Firma najpierw użyła DeepSeq-v3-Base jako modelu podstawowego, rozwijając swoje możliwości wnioskowania bez wykorzystywania nadzorowanych danych, zasadniczo wyłącznie poprzez własny proces prób i błędów oparty na RL. -Koncentracja na rozwoju. Opracowana wewnętrznie przez Task funkcja ta zapewnia, że model może rozwiązywać coraz bardziej złożone zadania rozumowania, korzystając z obliczeń wydłużonego czasu testowania w celu głębszego zbadania i udoskonalenia procesów myślowych.
„Podczas szkolenia DeepSeek-R1-Zero w sposób naturalny ujawnił kilka potężnych i interesujących zachowań związanych z rozumowaniem” – piszą naukowcy w artykule. „Po tysiącach kroków RL DeepSeek-R1-Zero wykazuje doskonałą wydajność w teście porównawczym rozumowania. Na przykład wynik Pass@1 w AIME 2024 wzrósł z 15,6% do 71,0%, a przy głosowaniu większościowym wynik poprawił się do 86,7%, co odpowiada wynikowi OpenAI-o1-0912.
Jednak pomimo poprawy wydajności, w tym zachowań takich jak refleksja i odkrywanie alternatyw, początkowe modele wykazały pewne problemy, w tym słabą czytelność i mieszanie języków. Aby rozwiązać ten problem, firma rozszerzyła pracę wykonaną dla R1-Zero, stosując podejście wieloplatformowe, łącząc zarówno uczenie się nadzorowane, jak i uczenie się przez wzmacnianie, i w ten sposób opracowała ulepszony model R1.
„W szczególności zaczynamy od zebrania tysięcy danych dotyczących zimnego startu, aby udoskonalić model podstawowy DeepSeek-v3” – stwierdzili naukowcy. „Następnie wykonujemy zorientowany na logikę RL, taki jak DeepSeq-R1-Zero. Gdy proces RL zbliża się do zbieżności, tworzymy nowe dane SFT poprzez próbkowanie odrzucenia w punkcie kontrolnym RL, w połączeniu z nadzorowanymi danymi z DeepSeq-V3 w takich dziedzinach, jak pisanie, faktyczna kontrola jakości i samopoznanie, a następnie DeepSeek-V3 jest ponownie szkolony. -Model podstawowy. Po dostrojeniu z nowymi danymi punkt kontrolny przechodzi dodatkowy proces RL uwzględniający sygnały ze wszystkich scenariuszy. Po tych krokach otrzymaliśmy punkt kontrolny o nazwie DeepSeek-R1, który osiąga wydajność porównywalną z OpenAI-O1-1217.
Znacznie tańsze niż O1
Oprócz lepszej wydajności, która we wszystkich testach prawie dorównuje o1 OpenAI, nowy DeepSeek-R1 jest również bardzo opłacalny. W szczególności, gdy OpenAI o1 kosztuje 15 dolarów za milion tokenów wejściowych i 60 dolarów za milion tokenów wyjściowych, DeepSeek Reasoner, który jest oparty na modelu R1, Koszt 0,55 USD za milion tokenów wejściowych i 2,19 USD za milion tokenów wyjściowych.
Modele można testować w ramach „głębokiego myślenia” Platforma czatu DeepSeekKtóry jest podobny do ChatGPT. Zainteresowani użytkownicy mogą uzyskać dostęp do wag modeli i repozytorium kodów poprzez Hugging Face w ramach licencji MIT lub skorzystać z interfejsu API w celu bezpośredniej integracji.
Source link