Model rozumowania AI DeepSeek-R1-Lite-Preview pokonuje OpenAI o1

Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. Dowiedz się więcej


DeepSeekodgałęzienie chińskiego ilościowego funduszu hedgingowego opartego na sztucznej inteligencji Zarządzanie kapitałem na najwyższym poziomie koncentruje się na udostępnianiu wysokowydajnej technologii open source, zaprezentował R1-Lite-Preview, swój najnowszy model dużego języka skupiony na rozumowaniu (LLM), dostępny obecnie wyłącznie za pośrednictwem Czat DeepSeekswojego internetowego chatbota AI.

Znana ze swojego innowacyjnego wkładu w ekosystem sztucznej inteligencji typu open source, nowa wersja DeepSeek ma na celu udostępnienie społeczeństwu zaawansowanych możliwości rozumowania, przy jednoczesnym utrzymaniu zaangażowania w dostępną i przejrzystą sztuczną inteligencję.

A R1-Lite-Preview, choć na razie dostępny tylko za pośrednictwem aplikacji do czatu, już przyciąga wzrok, oferując wydajność bliską, a w niektórych przypadkach przewyższającą osławiony model OpenAI-preview o1.

Tak model wydany w Wrzesień 2024 r., DeepSeek-R1-Lite-Preview przedstawia rozumowanie „łańcucha myśli”, pokazując użytkownikowi różne łańcuchy lub ciągi „myśli”, które przebiegają w odpowiedzi na jego zapytania i dane wejściowe, dokumentując proces, wyjaśniając, co to robi i dlaczego.

Chociaż niektóre łańcuchy/ciągi myśli mogą wydawać się ludziom bezsensowne lub nawet błędne, DeepSeek-R1-Lite-Preview wydaje się być uderzająco dokładny, odpowiadając nawet na „podchwytliwe” pytania, które natknęła się na inne, starsze, ale potężne Modele sztucznej inteligencji, takie jak GPT-4o i rodzina antropiczna Claude’a, w tym „ile liter R znajduje się w słowie Truskawka?” i „co jest większe, 9,11 czy 9,9?” Zobacz zrzuty ekranu poniżej moich testów tych podpowiedzi na czacie DeepSeek:

Nowe podejście do rozumowania AI

DeepSeek-R1-Lite-Preview został zaprojektowany, aby wyróżniać się w zadaniach wymagających logicznego wnioskowania, rozumowania matematycznego i rozwiązywania problemów w czasie rzeczywistym.

Według DeepSeek model ten przewyższa wydajność OpenAI o1 na poziomie podglądu w uznanych testach porównawczych, takich jak AIME (American Invitational Mathematics Examination) i MATH.

Wyniki testu porównawczego DeepSeek-R1-Lite-Preview opublikowane na platformie X.

Jego możliwości rozumowania są wzmocnione dzięki przejrzystemu procesowi myślowemu, umożliwiającemu użytkownikom śledzenie, jak model krok po kroku stawia czoła złożonym wyzwaniom.

DeepSeek opublikował również dane dotyczące skalowania, wykazując stałą poprawę dokładności, gdy model otrzymuje więcej czasu lub „żetonów przemyśleń” na rozwiązanie problemów. Wykresy wydajności podkreślają jego biegłość w osiąganiu wyższych wyników w testach porównawczych, takich jak AIME, w miarę wzrostu głębi myśli.

Benchmarki i zastosowania w świecie rzeczywistym

DeepSeek-R1-Lite-Preview wypadł konkurencyjnie w kluczowych testach.

Opublikowane wyniki firmy podkreślają jej zdolność do wykonywania szerokiego zakresu zadań, od złożonych zadań matematycznych po scenariusze oparte na logice, uzyskując wyniki w zakresie wydajności porównywalne z czołowymi modelami w testach porównawczych rozumowania, takich jak GPQA i Codeforces.

Przejrzystość procesu rozumowania dodatkowo ją wyróżnia. Użytkownicy mogą obserwować logiczne kroki modelu w czasie rzeczywistym, dodając element odpowiedzialności i zaufania, którego brakuje wielu zastrzeżonym systemom AI.

Jednakże firma DeepSeek nie udostępniła jeszcze pełnego kodu do niezależnych analiz lub testów porównawczych przeprowadzanych przez strony trzecie, ani nie udostępniła jeszcze DeepSeek-R1-Lite-Preview za pośrednictwem interfejsu API, który umożliwiałby tego samego rodzaju niezależne testy.

Ponadto firma nie opublikowała jeszcze wpisu na blogu ani dokumentu technicznego wyjaśniającego, w jaki sposób DeepSeek-R1-Lite-Preview był szkolony lub projektowany, co pozostawia wiele znaków zapytania co do jego pochodzenia.

Plany dostępności i open source

Wersja zapoznawcza R1-Lite jest teraz dostępna za pośrednictwem czatu DeepSeek pod adresem chat.deepseek.com. Chociaż zaawansowany tryb „Deep Think” dostępny w modelu jest bezpłatny do użytku publicznego, ma dzienny limit 50 wiadomości, co zapewnia użytkownikom szerokie możliwości poznania jego możliwości.

Patrząc w przyszłość, DeepSeek planuje wypuścić wersje open source swoich modeli serii R1 i powiązanych interfejsów API wpisy firmy na X.

Posunięcie to wpisuje się w historię firmy we wspieraniu społeczności opartej na sztucznej inteligencji typu open source.

Jej poprzednie wydanie, DeepSeek-V2.5, zyskał uznanie za połączenie ogólnego przetwarzania języka i zaawansowanych możliwości kodowania, co czyni go wówczas jednym z najpotężniejszych modeli sztucznej inteligencji typu open source.

Budowanie na dziedzictwie

DeepSeek kontynuuje swoją tradycję przesuwania granic w zakresie sztucznej inteligencji typu open source. Wcześniejsze modele, takie jak DeepSeek-V2.5 i Koder DeepSeek wykazał imponujące możliwości w zakresie zadań językowych i kodowania, a testy porównawcze umieściły go na pozycji lidera w tej dziedzinie.

Wydanie R1-Lite-Preview dodaje nowy wymiar, koncentrując się na przejrzystym rozumowaniu i skalowalności.

W miarę jak firmy i badacze badają zastosowania sztucznej inteligencji wymagającej intensywnego rozumowania, zaangażowanie DeepSeek w otwartość gwarantuje, że jej modele pozostaną istotnym źródłem rozwoju i innowacji.

Łącząc wysoką wydajność, przejrzystość operacji i dostępność oprogramowania typu open source, DeepSeek nie tylko rozwija sztuczną inteligencję, ale także zmienia sposób jej udostępniania i wykorzystania.

Wersja zapoznawcza R1-Lite jest już dostępna do publicznych testów. Oczekuje się, że modele i interfejsy API typu open source będą podążać dalej, jeszcze bardziej umacniając pozycję DeepSeek jako lidera w dostępnych, zaawansowanych technologiach sztucznej inteligencji.


źródło

LEAVE A REPLY

Please enter your comment!
Please enter your name here