Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
OpenAI wprowadziło nowy paradygmat wnioskowania w dużych modelach językowych (LLM) dzięki modelowi O1, który niedawno otrzymał poważną aktualizację. Jednakże, chociaż OpenAI ma silną przewagę w modelach rozumowania, może tracić przewagę na rzecz szybko pojawiających się rywali z zakresu open source.
Modele takie jak O1, czasami nazywane dużymi modelami logicznymi (LRM), wykorzystują dodatkowe cykle obliczeniowe w czasie wnioskowania, aby „myśleć” więcej, przeglądać swoje odpowiedzi i poprawiać swoje odpowiedzi. Umożliwia im to rozwiązywanie złożonych problemów logicznych, z którymi borykają się klasyczne programy LLM, i czyni je szczególnie przydatnymi do zadań takich jak kodowanie, matematyka i analiza danych.
Jednak ostatnio programiści wykazali mieszane reakcje na o1, szczególnie po wydaniu aktualizacji. Niektórzy opublikowali przykłady wykonania niesamowitych zadań, inni wyraził rozczarowanie O mylących reakcjach modeli. Programiści doświadczyli wszelkiego rodzaju problemów, od wprowadzania nielogicznych zmian w kodzie po ignorowanie instrukcji.
Prywatność wokół szczegółów O1
Część zamieszania wynika z tajemnicy OpenAI i odmowy ujawnienia szczegółów działania o1. Sekretem sukcesu LRM są dodatkowe tokeny generowane przez model po uzyskaniu ostatecznej odpowiedzi, zwanej „pomysłami” lub „łańcuchem argumentów” modelu. Na przykład, jeśli poprosisz klasyczną LLM o wygenerowanie kodu dla zadania, natychmiast wygeneruje kod. W przeciwieństwie do tego LRM wygeneruje tokeny logiczne, które zbadają problem, zaplanują strukturę kodu i wygenerują wiele rozwiązań, zanim znajdą ostateczną odpowiedź.
o1 ukrywa proces myślenia i pokazuje tylko ostatnią odpowiedź z komunikatem wskazującym, jak długo model myślał i ewentualnie wyższy przegląd procesu rozumowania. Częściowo ma to na celu uniknięcie zaśmiecania odpowiedzi i zapewnienie bezproblemowej obsługi użytkownika. Ale co ważniejsze, OpenAI uważa łańcuch logiczny za tajemnicę handlową i chce utrudnić konkurentom powielanie możliwości O1.
Koszt szkolenia nowych modeli stale rośnie, a marże zysku nie nadążają za tym tempem, co skłania niektóre laboratoria AI do zachowania większej tajemnicy w celu zwiększenia swojej przewagi. Nawet badania Apollo, które to wykazały Red-teaming modeliNie dano dostępu do jego łańcucha logicznego.
Ten brak przejrzystości doprowadził użytkowników do wszelkiego rodzaju spekulacji, w tym do oskarżania OpenAI o zniekształcanie modeli w celu obniżenia kosztów wnioskowania.
Model open source całkowicie przejrzysty
Z drugiej strony alternatywy typu open source, takie jak Quench with Pytania Alibaba i Marco-O1, pokazują pełny łańcuch logiczny swoich modeli. Inną opcją jest DeepSeek R1, który nie jest oprogramowaniem typu open source, ale nadal udostępnia token logiczny. Przeglądanie łańcucha logicznego pomaga programistom rozwiązywać problemy z sygnałami i znajdować sposoby na ulepszenie odpowiedzi modelu poprzez dodanie dodatkowych instrukcji lub przykładów w kontekście.
Wgląd w proces wnioskowania jest szczególnie ważny, gdy chcesz zintegrować odpowiedzi modelu z aplikacjami i narzędziami, które oczekują spójnych wyników. Ponadto ważne jest, aby mieć kontrolę nad modelem bazowym w aplikacjach korporacyjnych. Modele prywatne i wspierające je rusztowania, takie jak środki bezpieczeństwa i filtry testujące ich dane wejściowe i wyjściowe, stale się zmieniają. Chociaż może to poprawić ogólną wydajność, może zepsuć wiele sygnałów i aplikacji zbudowanych na ich podstawie. Natomiast modele open source dają programiście pełną kontrolę nad modelem, co może być silniejszą opcją w przypadku aplikacji korporacyjnych, gdzie wydajność w przypadku bardzo specyficznych zadań jest ważniejsza niż ogólne umiejętności.
QwQ i R1 są nadal w wersjach poglądowych, a O1 jest liderem pod względem dokładności i łatwości obsługi. W przypadku wielu zastosowań, takich jak ogólne sygnały ad hoc i jednorazowe żądania, O1 może nadal być lepszym wyborem niż alternatywy typu open source.
Jednak społeczność open source w coraz większym stopniu korzysta z modeli prywatnych i w nadchodzących miesiącach możemy spodziewać się pojawienia się większej liczby modeli. Mogą stać się odpowiednią opcją tam, gdzie ważna jest widoczność i kontrola.
Source link