Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Niedawna wersja OpenAI O1 zwróciła wiele uwagi na duże modele logiczne (LRM) i inspiruje nowe modele mające na celu rozwiązywanie złożonych problemów, z którymi często borykają się klasyczne modele językowe. Opierając się na sukcesie O1 i opierając się na koncepcji LRM, badacze Alibaba wprowadzili rozwiązanie marco-o1Co poprawia zdolności rozumowania i rozwiązuje problemy dzięki otwartym rozwiązaniom, w których brakuje jasnych standardów i wymiernych nagród.
OpenAI wykorzystuje „skalowanie czasu wnioskowania”, aby poprawić zdolność rozumowania modeli o1, dając im „czas na przemyślenie”. Zasadniczo model wykorzystuje więcej cykli obliczeniowych podczas wnioskowania, aby wygenerować więcej tokenów i przejrzeć swoje odpowiedzi, poprawiając swoją wydajność w przypadku zadań wymagających rozumowania. o1 słynie z imponujących zdolności rozumowania, szczególnie w zadaniach wymagających standardowych odpowiedzi, takich jak matematyka, fizyka i kodowanie.
Jednak wiele zastosowań wiąże się z problemami otwartymi, którym brakuje jasnych rozwiązań i wymiernych nagród. „Naszym celem jest jeszcze dalsze przesuwanie granic LLM poprzez zwiększanie ich zdolności rozumowania, aby stawić czoła złożonym wyzwaniom w świecie rzeczywistym” – piszą badacze Alibaba.
MARCO-O1 to udoskonalona wersja QUEN2-7B-Instruct firmy Alibaba, która integruje zaawansowane technologie, takie jak dostrajanie łańcucha myśli (COT). wyszukiwanie drzew w Monte Carlo (MCTS) i strategie uzasadnionego działania.
Naukowcy przeszkolili MARCO-O1 na kombinacji zbiorów danych, w tym Otwórz-O1 zbiór danych COT; Zbiór danych MARCO-O1 COT, syntetyczny zbiór danych wygenerowany przy użyciu MCTS; oraz zestaw danych instrukcji MARCO-O1, zbiór niestandardowych danych dotyczących instrukcji dla funkcji logicznych.
MCTS to algorytm wyszukiwania, który okazał się skuteczny w scenariuszach rozwiązywania złożonych problemów. W inteligentny sposób bada różne ścieżki rozwiązań, wielokrotnie próbkując możliwości, symulując wyniki i stopniowo budując drzewo decyzyjne. Okazało się bardzo skuteczne w skomplikowanych problemach ze sztuczną inteligencją, takich jak przejście gry Go.
MARCO-O1 wykorzystuje MCTS do wykrywania wielu ścieżek logicznych podczas generowania tokenów odpowiedzi. Model wykorzystuje wyniki ufności tokenów odpowiedzi kandydatów do budowania drzewa decyzyjnego i eksplorowania różnych gałęzi. Dzięki temu model może uwzględnić szerszy zakres możliwości i wyciągnąć bardziej świadome i zniuansowane wnioski, szczególnie w scenariuszach z rozwiązaniami otwartymi. Badacze wprowadzili także elastyczną strategię działania logicznego, która umożliwia dostosowanie szczegółowości kroków MCTS poprzez określenie liczby tokenów generowanych w każdym węźle drzewa. Zapewnia równowagę pomiędzy dokładnością i kosztami obliczeniowymi, umożliwiając użytkownikom zrównoważenie wydajności i wydajności.
Kolejną ważną innowacją w MarCO-O1 jest wprowadzenie mechanizmu odbicia. Podczas procesu rozumowania model okresowo podpowiada sobie zdanie: „Czekaj! Może popełniłem jakieś błędy! Muszę to przemyśleć. Powoduje to, że model ponownie ocenia etapy rozumowania, identyfikuje potencjalne błędy i udoskonala proces myślowy.
„Dzięki takiemu podejściu model może działać jak własny krytyk, identyfikując potencjalne błędy w swoim rozumowaniu” – napisali naukowcy. „Wyraźnie zachęcając model do kwestionowania jego początkowych wniosków, zachęcamy go do ponownego wyrażenia i udoskonalenia procesu myślowego”.
Aby ocenić działanie MARCO-O1, naukowcy przeprowadzili eksperymenty dotyczące szeregu zadań, w tym testu porównawczego MGSM, zbioru danych dotyczących problemów matematycznych w wielojęzycznych szkołach podstawowych. MARCO-O1 znacznie przewyższał podstawowy model QUEN2-7B, zwłaszcza gdy komponent MCTS został dostosowany pod kątem szczegółowości pojedynczego tokenu.
Jednakże głównym celem MARCO-O1 było rozwiązanie problemów związanych z rozumowaniem w otwartych scenariuszach. W tym celu badacze przetestowali model tłumaczenia wyrażeń potocznych i slangowych, co było zadaniem wymagającym zrozumienia subtelnych niuansów języka, kultury i kontekstu. Eksperymenty wykazały, że Marco-O1 był w stanie wychwycić i przetłumaczyć te wyrażenia skuteczniej niż tradycyjne narzędzia tłumaczeniowe. Na przykład modelka poprawnie przetłumaczyła potoczne wyrażenie z języka chińskiego, które dosłownie oznacza: „Ten but zapewnia wygodę podczas każdego kroku” na angielski odpowiednik: „Podeszwa tego buta jest wygodna”. Łańcuch logiczny modelu pokazuje, jak ocenia różne możliwe znaczenia i dochodzi do prawidłowego tłumaczenia.
Paradygmat ten może okazać się przydatny w przypadku zadań takich jak projektowanie i strategia produktu, które wymagają głębokiego i kontekstowego zrozumienia i nie mają dobrze zdefiniowanych punktów odniesienia i wskaźników.
Nowa fala modeli logicznych
Od czasu wydania O1 laboratoria AI spieszyły się z publikacją modeli rozumowania. W zeszłym tygodniu chińskie laboratorium AI DeepSeek opublikowało wersję zapoznawczą swojego konkurenta O1, R1-Lite, który jest obecnie dostępny wyłącznie za pośrednictwem firmowego interfejsu czatu. Według doniesień wersja r1-lite-preview przewyższa wersję o1 w kilku kluczowych testach porównawczych.
Społeczność open source również dogania rynek modeli prywatnych, udostępniając modele i zbiory danych, które korzystają z przepisów dotyczących skalowania w czasie szacowania. Zespół Alibaba zwolniony marco-o1 Przytul twarz za pomocą częściowy zbiór danych logicznych Które badacze mogą wykorzystać do szkolenia swoich modeli logicznych. Innym niedawno opublikowanym modelem jest LLaVA-o1, opracowany przez naukowców z kilku uniwersytetów w Chinach, który przenosi paradygmat wnioskowania w czasie do otwartego modelu języka wizyjnego (VLM).
Wydanie tych modeli następuje w obliczu niepewności co do przyszłości przepisów dotyczących skalowania modeli. Różne raporty wskazują, że zyski z uczenia dużych modeli maleją i mogą być utrudnione. Pewne jest jednak, że dopiero zaczynamy badać możliwości skalowania w czasie wnioskowania.
Source link