Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Nazywa się zespół badaczy AI dziewięć badań Obecnie robię coś wyjątkowego w szybko rozwijającej się dziedzinie generatywnej sztucznej inteligencji (przynajmniej według mojej najlepszej wiedzy): Nous buduje nowy model dużego języka (LLM) o wartości 15 miliardów parametrów, korzystając z maszyn rozproszonych w Internecie szkoleń i świata, unikając konieczności skupiania się na opracowywaniu modeli, jak to tradycyjnie miało miejsce w przypadku drogich, energochłonnych centrów danych AI i procesorów graficznych (GPU). Znajdował się w „supergromadach”, takich jak niedawno ukończona XAI Elona Muska. W Memphis, Tennessee.
Dodatkowo Nous transmituje na żywo proces przedtreningowy na dedykowanej stronie internetowej – distro.nousresearch.com – Pokazuje, jak dobrze radzi sobie w testach porównawczych, a także prostą mapę różnych lokalizacji sprzętu treningowego wykorzystywanego podczas ćwiczenia, w tym wiele lokalizacji w USA i Europie.
W momencie publikacji tego artykułu pozostało około 57 godzin (2,3 dnia) biegu przedtreningowego i ponad 75% procesu zostało zakończone.
Szkolenie wstępne jest pierwszym z dwóch i prawdopodobnie najbardziej podstawowym aspektem szkolenia LLM, ponieważ obejmuje szkolenie modelu na ogromnych zbiorach danych tekstowych w celu poznania właściwości statystycznych i struktur języka. Model przetwarza kompleksowe zbiory danych tekstowych, wychwytując wzorce, gramatykę i kontekstowe relacje między słowami. Ten krok wyposaża model w wszechstronne zrozumienie języka, umożliwiając mu generowanie spójnego tekstu i wykonywanie różnych zadań językowych.
Po wstępnym szkoleniu model ulega dostrojeniu na bardziej szczegółowych zbiorach danych dostosowanych do konkretnych zadań lub dziedzin.
Jeśli się powiedzie, Nuss udowodni, że stosując innowacyjną metodologię szkoleniową typu open source, możliwe jest trenowanie klas LLM pionierskiej klasy bez konieczności stosowania drogich superklastrów lub transmisji o małych opóźnieniach. Może to zapoczątkować nową erę rozproszonego szkolenia w zakresie sztucznej inteligencji jako głównego lub potencjalnie wpływowego źródła nowych modeli sztucznej inteligencji i przesunąć równowagę sił w ogólnej sztucznej inteligencji z dobrze finansowanych dużych firm technologicznych na mniejsze grupy i organizacje non-profit. Może przesunąć się w stronę aktorów korporacyjnych. ,
Nine Distros: Technologia leżąca u podstaw ćwiczeń szkoleniowych
Firma Nous, która na początku tego roku trafiła na pierwsze strony gazet ze względu na liberalne i egzystencjalnie kontrowersyjne wydanie wersji Meta Llama 3.1 Hermes 3 oraz swoją ogólną misję polegającą na personalizowaniu i nieograniczonym rozwoju sztucznej inteligencji, wykorzystuje technologię rozproszonego szkolenia o otwartym kodzie źródłowym, tzw. nous distro (szkolenie rozproszone ). przez Internet), który Nuss pierwotnie opublikował w artykule badawczym w sierpniu 2024 r.
Według niedawnej publikacji Nous Research, DiTrO zmniejsza wymagania dotyczące przepustowości komunikacji między procesorami graficznymi nawet 10 000 razy podczas treningu przedtreningowego. Ta innowacja umożliwia szkolenie modeli w zakresie wolniejszych i tańszych połączeń internetowych — potencjalnie do 100 Mb/s pobierania i 10 Mb/s wysyłania — przy jednoczesnym zachowaniu konkurencyjnych wskaźników konwergencji i krzywych strat.
Głównym sukcesem DiTrO jest jego zdolność do wydajnej kompresji danych wymienianych pomiędzy procesorami graficznymi bez pogarszania wydajności modelu.
Jak podano w artykule VentureBeat z sierpnia 2024 r., podczas testu z wykorzystaniem architektury Llama 2 dzięki tej metodzie zmniejszono wymagania dotyczące komunikacji z 74,4 gigabajtów do zaledwie 86,8 megabajtów, osiągając wydajność około 857x. Ta radykalna poprawa toruje drogę nowej erze zdecentralizowanych, opartych na współpracy badań nad sztuczną inteligencją.
DiTrO opiera się na wcześniejszych pracach nad Decoupled Momentum Optimization (DMO), algorytmem zaprojektowanym w celu ograniczenia komunikacji między procesorami graficznymi o kilka rzędów wielkości przy jednoczesnym zachowaniu wydajności treningu w porównaniu z tradycyjnymi metodami.
Zarówno algorytm DeMo, jak i stos DiTrO są częścią ciągłej misji Nous Research polegającej na decentralizacji możliwości sztucznej inteligencji i udostępnianiu zaawansowanego rozwoju sztucznej inteligencji szerszemu gronu odbiorców.
Zespół udostępnił algorytm demonstracyjny w postaci kodu open source w serwisie GitHub, zapraszając badaczy i programistów z całego świata do eksperymentowania i wykorzystywania swoich odkryć.
Partnerzy sprzętowi
Wstępne szkolenie 15-miliardowego modelu językowego firmy Nous Research obejmowało wkład kilku znaczących partnerów, w tym Oracle, Lambda Labs, Northern Data Group, Crusoe Cloud i Andromeda Cluster.
Wspólnie dostarczyli różnorodny sprzęt potrzebny do przetestowania możliwości DiTrO w rzeczywistym środowisku rozproszonym.
Głębokie implikacje dla przyszłego rozwoju modelu sztucznej inteligencji
Konsekwencje DiTrO wykraczają daleko poza innowacje technologiczne. Zmniejszając zależność od scentralizowanych centrów danych i specjalistycznej infrastruktury, DiTrO zapewnia ścieżkę do bardziej włączającego i opartego na współpracy ekosystemu badawczego AI.
Małe instytucje, niezależni badacze, a nawet hobbyści mający dostęp do Internetu klasy konsumenckiej i procesorów graficznych mogą szkolić potencjalnie duże modele – wyczyn wcześniej zarezerwowany dla firm ze znacznym kapitałem i specjalistyczną wiedzą.
Diederik P. Kingma, współautor artykułu badawczego i współtwórca optymalizatora Adam, dołączył do Nuss Research jako współpracownik przy rozwoju DeMo i DisTrO. Wkład Kingmy oraz współzałożycieli Nous Research, Bowena Penga i Jeffreya Quesnela, uwiarygodniają projekt i wskazują jego potencjalny wpływ na szerszą społeczność AI.
kolejne kroki
Firma Nous Research otworzyła drzwi do przyszłości, w której rozwój sztucznej inteligencji nie będzie już zdominowany przez garstkę korporacji. Ich praca nad DiTrO pokazuje, że przy odpowiedniej optymalizacji wielkoskalowe modele sztucznej inteligencji można skutecznie szkolić w sposób zdecentralizowany.
Podczas gdy obecne demonstracje wykorzystywały najnowocześniejsze procesory graficzne, takie jak Nvidia H100, skalowalność DiTrO do mniej wyspecjalizowanego sprzętu pozostaje obszarem dalszych badań.
W miarę jak firma Nous Research stale udoskonala swoje metody, potencjalne zastosowania tej technologii – od zdecentralizowanego, stowarzyszonego uczenia się po modele propagacji szkoleń do generowania obrazów – mogą na nowo zdefiniować granice innowacji w zakresie sztucznej inteligencji.
Source link