Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


W nowym studium przypadku badacze Hugging Face wykazali, jak można skonfigurować małe modele językowe (SLM), aby przewyższały większe modele. Ich odkrycia pokazują, że model Lamy 3 z parametrami 3B może przewyższać wersję modelu 70B w złożonych problemach matematycznych.

przytulenie to twarz w pełni udokumentowane Cały proces stanowi plan działania dla przedsiębiorstw, które chcą zbudować własne, dostosowane do potrzeb modele logiczne.

Źródło obrazu: Przytulająca twarz

Obliczanie czasu testu skalującego

Praca inspirowana jest OpenAI o1, który wykorzystuje dodatkowe „myślenie” do rozwiązywania złożonych problemów matematycznych, kodowania i logiki.

Główną ideą modeli takich jak O1 jest skalowanie „obliczeń w czasie testu”, co w praktyce oznacza wykorzystanie większej liczby cykli obliczeniowych podczas wnioskowania w celu przetestowania i sprawdzenia różnych odpowiedzi i ścieżek logicznych przed uzyskaniem ostatecznej odpowiedzi. Obliczenia czasu testu skalowania są szczególnie przydatne, gdy nie ma wystarczającej ilości pamięci do uruchomienia dużych modeli.

Ponieważ o1 jest modelem prywatnym, a OpenAI milczy na temat jego wewnętrznego działania, badacze zgadują, jak to działa i próbują odwrócić proces. Istnieje już kilka otwartych opcji dla O1.

Prace Hugging Face opierają się na badaniu DeepMind opublikowanym w sierpniu, w którym zbadano kompromis między czasem wnioskowania a obliczeniami przedtreningowymi. Badanie to dostarcza kompleksowych wskazówek, jak zrównoważyć obliczenia szkoleniowe i wnioskowania, aby osiągnąć najlepsze wyniki przy danym budżecie.

Oprócz wykorzystania dodatkowych obliczeń czasu wnioskowania powodzenie tej techniki zależy od dwóch kluczowych elementów: modelu nagrody, który ocenia odpowiedzi SLM, oraz algorytmu wyszukiwania, który określa ścieżkę potrzebną do udoskonalenia odpowiedzi.

Źródło obrazu: Przytulająca twarz

różne algorytmy logiczne

Najprostszym sposobem wykorzystania skalowania czasu testu jest „głosowanie większością”, w którym do modelu wysyłany jest wielokrotnie ten sam sygnał i wybierany jest ten, który otrzyma najwięcej głosów. W prostych problemach głosowanie większością może okazać się przydatne, ale jego korzyści szybko maleją w przypadku złożonych problemów logicznych lub zadań, w których błędy często pojawiają się na przestrzeni pokoleń.

Bardziej zaawansowaną metodą wnioskowania jest „najlepszy z n”. W tej technice SLM generuje wiele odpowiedzi, ale zamiast głosowania większością, do oceny odpowiedzi i wyboru najlepszej stosuje się model nagrody. „Ważona liczba najlepszych z n”, bardziej subtelna wersja tej metody, uwzględnia spójność w wyborze odpowiedzi, które są pewne i występują częściej niż inne.

Naukowcy zastosowali „model nagrody za proces” (PRM), który ocenia reakcję SLM nie tylko na podstawie ostatecznej odpowiedzi, ale także na podstawie wielu kroków, jakie musi przejść, aby ją osiągnąć. Ich eksperymenty wykazały, że ważone best-of-n i PRM zbliżyły Llamę-3.2 1B do poziomu Lamy-3.2 8B w trudnym teście MATH-500.

Źródło obrazu: Przytulająca twarz

Aby jeszcze bardziej poprawić wydajność modelu, badacze dodali algorytmy wyszukiwania do procesu wnioskowania modelu. Zamiast generować odpowiedź w jednym przebiegu, wykorzystali „wyszukiwanie wiązki” – algorytm, który krok po kroku kieruje procesem udzielania odpowiedzi przez model.

Na każdym etapie SLM generuje kilka częściowych odpowiedzi. Algorytm wyszukiwania wykorzystuje modele nagród do oceny odpowiedzi i wybierania podzbioru, który warto bliżej zbadać. Proces jest powtarzany do momentu wyczerpania przez model budżetu szacunkowego lub uzyskania prawidłowej odpowiedzi. W ten sposób budżet szacunkowy można ograniczyć, aby skupić się na najbardziej obiecujących odpowiedziach.

Naukowcy odkryli, że choć wyszukiwanie wiązek poprawia wydajność modelu w przypadku złożonych problemów, w przypadku prostych problemów jest gorsze od innych technik. Aby sprostać temu wyzwaniu, do swojej strategii szacowania dodali jeszcze dwa elementy.

Pierwszym z nich było przeszukiwanie drzewa weryfikatorów różnicowych (DVTS), wariant przeszukiwania wiązki, który zapewnia, że ​​SLM nie utknie na błędnych ścieżkach logicznych i dywersyfikuje gałęzie odpowiedzi. Po drugie, opracowali „strategię skalowania optymalnego obliczeniowo”, jak zasugerowano w artykule DeepMind, która dynamicznie wybiera najlepszą strategię skalowania w czasie testu w oparciu o stopień trudności problemu wejściowego.

Połączenie tych technologii umożliwiło Lamie-3.2 1B przekroczenie swojej masy i znaczną przewagę nad modelem 8B. Odkryli również, że strategia jest skalowalna, a zastosowana do Llama-3.2 3B była w stanie uzyskać lepsze wyniki niż znacznie większy model 70B.

Nie ma jeszcze idealnego rozwiązania

Skalowanie obliczeń czasu testowania zmienia dynamikę kosztów modelu. Przedsiębiorstwa mają teraz możliwość wyboru, gdzie alokować swoje zasoby obliczeniowe. Na przykład, jeśli masz krótką pamięć lub tolerujesz wolniejsze czasy reakcji, możesz użyć mniejszego modelu i spędzić więcej cykli czasu wnioskowania, aby wygenerować dokładniejsze odpowiedzi.

Jednak skalowanie w czasie testu ma również swoje ograniczenia. Na przykład w eksperymentach przeprowadzonych przez Hugging Face badacze wykorzystali specjalnie wyszkolony model Llama-3.1-8b jako PRM, co wymaga równoległego uruchomienia dwóch modeli (mimo że jest to model 70b. Bądź znacznie bardziej zasobooszczędny niż) . Naukowcy przyznają, że świętym Graalem skalowania czasu testowania jest „samoweryfikacja”, w ramach której oryginalny model weryfikuje własne odpowiedzi, zamiast polegać na zewnętrznym weryfikatorze. To otwarty obszar badań.

Technika skalowania czasu testu przedstawiona w tym badaniu ogranicza się również do problemów, w przypadku których można jednoznacznie ocenić odpowiedź, takich jak kodowanie i matematyka. Potrzebne są dalsze badania, aby stworzyć modele nagród i walidatory dla subiektywnych zadań, takich jak kreatywne pisanie i projektowanie produktów.

Jasne jest jednak, że skalowanie czasu testów wzbudziło duże zainteresowanie i aktywność, dlatego w nadchodzących miesiącach możemy spodziewać się pojawienia się większej liczby narzędzi i technik. Przedsiębiorstwa rozsądnie powinny śledzić rozwój sytuacji.


Source link