Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Microsoft podwaja możliwości modelu małego języka (SLM) Ujawniono RStar-MathNowa technika wnioskowania, którą można zastosować do małych modeli w celu zwiększenia ich wydajności w rozwiązywaniu problemów matematycznych za pomocą technik wnioskowania – wydajność podobna, a w niektórych przypadkach nawet przewyższająca modele z podglądem O1 OpenAI.

Będąc jeszcze w fazie badań – jak opisano w a Artykuł został opublikowany na stronie przedrecenzyjnej arXiv.org oraz ośmiu autorów przypisanych firmie Microsoft, Uniwersytetowi Pekińskiemu i Uniwersytetowi Tsinghua w Chinach – technikę tę zastosowano w kilku różnych małych modelach typu open source, w tym własnym Phi-3 Mini firmy Microsoft i Qwen-1.5 B firmy Alibaba (model o 1,5 miliarda parametrów). i QUEN-7B (model 7 miliardów parametrów). Wykazał się doskonałą wydajnością na wszystkich z nich, przewyższając nawet wcześniejsze, najbardziej zaawansowane modele OpenAI Matematyczny (Word Problem Solving) Tester innej firmy składający się z 12 500 pytań obejmujących różne dziedziny, takie jak geometria i algebra, i wszystkie poziomy trudności.

Ostatecznie, zdaniem A Publikuj na temat „Przytulona twarz”.Badacze planują udostępnić swój kod i dane na Githubie https://github.com/Microsoft/rStarJednak jedna z autorek artykułu, Li Lina Zhang, napisała w komentarzach do postu Hugging Face, że zespół „nadal przechodzi wewnętrzny proces przeglądu wersji open source”. Na przykład: „Akcje pozostają na razie prywatne. Proszę, bądźcie czujni!”

Członkowie społeczności wyrazili entuzjazm, opisując innowacje jako „imponujące” i chwaląc połączenie wyszukiwania drzew Monte Carlo (MCTS) z logiką krok po kroku. Jeden z komentatorów podkreślił prostotę i użyteczność stosowania wartości Q do punktacji krokowej, podczas gdy inni spekulowali na temat przyszłych zastosowań w dowodach geometrycznych i logice symbolicznej.

Ta wiadomość nadeszła po udostępnieniu przez firmę Microsoft modelu Phi-4 na zasadzie open source, małego systemu sztucznej inteligencji o 14 miliardach parametrów, który jest teraz dostępny w serwisie Face Hugging w ramach liberalnej licencji MIT.

Podczas gdy wersja Phi-4 rozszerzyła dostęp do małych modeli o wysokiej wydajności, rStar-Math demonstruje specjalne podejście: wykorzystanie małych systemów AI w celu osiągnięcia nowatorskich wyników w logice matematycznej.

RStar-Math wykorzystuje wiele różnych modeli i komponentów, aby pomóc docelowemu małemu modelowi „samoistnie ewoluować”.

Kluczem do RStar-Math jest to, że wykorzystuje metodę Monte Carlo Tree Search (MCTS), która naśladuje ludzkie „głębokie myślenie” poprzez iteracyjne udoskonalanie krok po kroku rozwiązań problemów matematycznych.

Naukowcy wykorzystali MCTS, ponieważ „rozbija złożone problemy matematyczne na proste, jednoetapowe zadania generowania, zmniejszając trudność” w przypadku mniejszych modeli.

Jednak nie zastosowali po prostu MCTS, jak zrobili to inni badacze. Zamiast tego, w błysku geniuszu, proszą również model, który zawsze trenowali, aby przedstawił kroki rozumowania oparte na „łańcuchu myślowym” w postaci opisów w języku naturalnym. I Kod Pythona.

Nakazali, aby model zawierał odpowiedzi w języku naturalnym w postaci komentarzy do kodu Pythona, a do uczenia modelu wykorzystywane były wyłącznie dane wyjściowe korzystające z Pythona.

Naukowcy wyszkolili także „model polityki” do generowania etapów rozumowania matematycznego oraz model preferencji procesu (PPM), aby wybierać najbardziej obiecujące kroki w celu rozwiązania problemów, a następnie „samoewoluowały” w przypadku każdego modelu. „Obydwa ulepszyły się w ciągu czterech rund . Aby ulepszyć innych.

W przypadku wstępnych danych naukowcy stwierdzili, że w swoich rozwiązaniach wykorzystali „747 000 zadań matematycznych z publicznie dostępnych źródeł”, ale podjęli nowe kroki, aby je rozwiązać za pomocą dwóch opisanych powyżej modeli.

rekordowe wyniki

Po czterech rundach samorozwoju RStar-Math poczynił znaczące osiągnięcia:

• Ale benchmark matematycznyDokładność modelu Qwen2.5-Math-7B wzrosła z 58,8% do 90,0%, przewyższając wynik w wersji zapoznawczej OpenAI o1.

• Ale Egzamin z matematyki na zaproszenie amerykańskie (AIME)Rozwiązał 53,3% problemów i znalazł się w gronie 20% najlepszych uczniów szkół średnich.

Wyniki te podkreślają siłę SLM w obsłudze złożonej logiki matematycznej, która tradycyjnie dominuje w dużych systemach.

Mniejsze jest lepsze?

W ostatnich latach innowacje w zakresie sztucznej inteligencji były w dużej mierze napędzane przez ulepszanie modeli językowych, przy czym zwiększanie parametrów było postrzegane jako sposób na poprawę wydajności. Jednak wysokie koszty związane z tymi ogromnymi modelami, począwszy od zasobów obliczeniowych po zużycie energii, zrodziły pytania dotyczące skalowalności.

Microsoft oferuje alternatywną ścieżkę, koncentrując się na wydajności. Wydanie RStar-Math jeszcze bardziej podkreśla to zaangażowanie, demonstrując, w jaki sposób SLM mogą konkurować – a w niektórych przypadkach przewyższać – możliwości swoich większych odpowiedników.

Podwójne wydanie przez firmę Microsoft dokumentów Phi-4 i rStar-Math pokazuje, że kompaktowe, wyspecjalizowane modele mogą stanowić potężną alternatywę dla największych systemów w branży.

Co więcej, przewyższając większych konkurentów w kluczowych testach, modele te podważają pogląd, że większy jest zawsze lepszy. Otwierają one drzwi organizacjom średniej wielkości i badaczom akademickim dostęp do najnowocześniejszych możliwości bez obciążeń finansowych i środowiskowych związanych z większymi modelami.


Source link