Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
na badaczach Sekcja A.I Opracowano zasobooszczędną strukturę, która umożliwia utworzenie setek modeli językowych specjalizujących się w różnych zadaniach. zwany cyklcdTechnika ta wykorzystuje algorytmy ewolucyjne, aby połączyć umiejętności różnych modeli bez konieczności prowadzenia kosztownych i powolnych procesów szkoleniowych.
CycleQD może tworzyć roje agentów specyficznych dla danego zadania, które stanowią bardziej zrównoważoną alternatywę dla obecnego paradygmatu zwiększania rozmiaru modelu.
Nowe podejście do treningu modelowego
Duże modele językowe (LLM) wykazały niezwykłe możliwości w zakresie różnych zadań. Jednak szkolenie LLM w zakresie opanowania wielu umiejętności pozostaje wyzwaniem. Dostrajając model, inżynierowie muszą zrównoważyć dane dotyczące różnych umiejętności i upewnić się, że jedna umiejętność nie dominuje nad drugą. Obecne podejścia często obejmują szkolenie dużych modeli, zwiększając wymagania obliczeniowe i wymagania dotyczące zasobów.
„Wierzymy, że zamiast skupiać się na opracowaniu jednego dużego modelu, który dobrze poradzi sobie ze wszystkimi zadaniami, podejście oparte na populacji do opracowania zróżnicowanego roju konkretnych modeli zapewni agentom AI wyposażonym w zaawansowane możliwości, co mogłoby zapewnić alternatywną, bardziej zrównoważoną ścieżkę”. do wspomagania rozwoju. ” – piszą badacze Sakana w poście na blogu.
Aby stworzyć populacje modeli, badacze zainspirowali się różnorodnością jakości (QD), ewolucyjnym paradygmatem obliczeniowym, który koncentruje się na odkrywaniu zróżnicowanego zestawu rozwiązań na podstawie początkowej próbki populacji. Celem QD jest stworzenie próbek o różnych „cechach behawioralnych” (BC), które reprezentują różne domeny umiejętności. Osiąga to dzięki algorytmom ewolucyjnym (EA), które wybierają oryginalne przykłady i wykorzystują operacje krzyżowania i mutacji do tworzenia nowych próbek.
cyklcd
CycleQD włącza QD do procesu poszkoleniowego LLM, aby pomóc im w zdobyciu nowych, złożonych umiejętności. CycleQD jest przydatny, gdy masz kilka małych modeli, które zostały dostosowane do wykonywania bardzo specyficznych umiejętności, takich jak kodowanie lub operacje na bazach danych i systemach operacyjnych, i chcesz utworzyć nowe warianty, które mają różne kombinacje tych umiejętności.
W ramach CycleQD każda z tych umiejętności jest uważana za cechę behawioralną lub jakość, do której dostosowywane są modele nowej generacji. W każdej generacji algorytm koncentruje się na konkretnej umiejętności jako metryce jakości, wykorzystując inne umiejętności jako BC.
„Dzięki temu każda umiejętność znajdzie swój moment w centrum uwagi, dzięki czemu LLM będzie ogólnie bardziej zrównoważone i wszechstronne” – wyjaśniają naukowcy.
CycleQD zaczyna się od zestawu specjalistycznych LLM, z których każdy specjalizuje się w jednej umiejętności. Następnie algorytm stosuje operacje „krzyżowania” i „mutacji”, aby dodać do populacji nowe modele o wysokiej jakości. Crossover łączy cechy dwóch oryginalnych modeli, tworząc nowy model, podczas gdy mutacja wprowadza losowe zmiany w modelu w celu zbadania nowych możliwości.
Operacja krzyżowania opiera się na łączeniu modeli, technice, która łączy parametry dwóch LLM w celu stworzenia nowego modelu z połączonymi umiejętnościami. Jest to opłacalny i szybki sposób na opracowanie dobrze opracowanych modeli bez konieczności ich ulepszania.
wykorzystuje operację mutacji rozkład pojedynczej wartości (SVD), metoda faktoryzacji, która dzieli dowolną macierz na prostsze elementy, dzięki czemu jej elementy są łatwiejsze do zrozumienia i manipulowania. CycleQD wykorzystuje SVD do podziału umiejętności modelu na podstawowe komponenty lub umiejętności podrzędne. Dokonując zmian w tych podumiejętnościach, proces mutacji tworzy modele, które eksplorują nowe możliwości wykraczające poza ich pierwotny model. Pomaga to modelom uniknąć utknięcia w przewidywalnych wzorcach i zmniejsza ryzyko nadmiernego dopasowania.
Ocena wydajności CycleQD
Naukowcy zastosowali CycleQD do zestawu eksperckich modeli Lama 3-8B zaprojektowanych do kodowania, operacji na bazach danych i operacji na systemach operacyjnych. Celem było sprawdzenie, czy metoda ewolucyjna może połączyć umiejętności trzech modeli w celu stworzenia lepszego modelu.
Wyniki pokazały, że w ocenianych zadaniach CycleQD przewyższał tradycyjne metody dostrajania i łączenia modeli. Warto zauważyć, że pomimo przeszkolenia na większej ilości danych model połączony we wszystkich zbiorach danych działał tylko nieznacznie lepiej niż model ekspercki zajmujący się pojedynczą umiejętnością. Co więcej, tradycyjny proces szkolenia jest znacznie wolniejszy i droższy. CycleQD był także w stanie stworzyć różne modele o różnych poziomach wydajności w zakresie docelowych zadań.
„Wyniki te wyraźnie pokazują, że CycleQD przewyższa tradycyjne metody, udowadniając swoją skuteczność w szkoleniu osób LLM, aby wyróżniały się wieloma umiejętnościami” – napisali naukowcy.
Naukowcy uważają, że CycleQD może umożliwić uczenie się przez całe życie w systemach AI, umożliwiając im ciągłą ewolucję, dostosowywanie i gromadzenie wiedzy w czasie. Może to mieć bezpośredni wpływ na aplikacje w świecie rzeczywistym. Na przykład CycleQD można wykorzystać do ciągłego łączenia umiejętności modeli eksperckich zamiast uczenia dużego modelu od zera.
Kolejnym ekscytującym kierunkiem jest rozwój systemów wieloagentowych, w których roje wyspecjalizowanych agentów opracowane w ramach CycleQD mogą współpracować, konkurować i uczyć się od siebie nawzajem.
„Od odkryć naukowych po rozwiązywanie problemów w świecie rzeczywistym – roje wyspecjalizowanych agentów mogą na nowo zdefiniować granice sztucznej inteligencji” – piszą naukowcy.
Source link