Strona główna Technologie Nowa technika optymalizacji LLM zmniejsza koszty pamięci nawet o 75%

Technologie

Nowa technika optymalizacji LLM zmniejsza koszty pamięci nawet o 75%

Przez

15 grudnia 2024

Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej

Naukowcy z tokijskiego startupu Sakana AI opracowali nową technologię, która umożliwia modelom językowym efektywniejsze wykorzystanie pamięci, umożliwiając przedsiębiorstwom tworzenie aplikacji w oparciu o duże modele językowe (LLM) i inne modele oparte na transformatorach. Pomaga w obniżeniu kosztów budowy.

technologii, zwanej także „uniwersalny pamięć transformatoraZoptymalizowany LLM wykorzystuje wyspecjalizowane sieci neuronowe do przechowywania ważnych informacji i usuwania niepotrzebnych szczegółów z ich kontekstu.

Optymalizacja pamięci transformatora

Reakcje modeli Transformera, stanowiących szkielet LLM, zależą od zawartości ich „okna kontekstowego”, czyli tego, co otrzymują jako dane wejściowe od użytkowników.

Okno kontekstowe można uznać za pamięć roboczą modelu. Zmiana zawartości okna kontekstowego może mieć ogromny wpływ na wydajność modelu, co dało początek całej dziedzinie „inżynierii przyspieszonej”.

Obecne modele obsługują bardzo długie okna kontekstowe z setkami tysięcy, a nawet milionami tokenów (numeryczne reprezentacje słów, części słów, fraz, pojęć i liczb wprowadzanych przez użytkowników w podpowiedziach w LLM).

Dzięki temu użytkownicy mogą umieścić więcej informacji w swoich sygnałach. Jednak dłuższe sygnały mogą skutkować wyższymi kosztami obliczeń i mniejszą wydajnością. Optymalizacja sygnałów w celu usunięcia niepotrzebnych tokenów przy jednoczesnym zachowaniu ważnych informacji może obniżyć koszty i zwiększyć prędkość.

Obecne techniki dostosowywania podpowiedzi wymagają dużych zasobów lub wymagają od użytkowników ręcznego testowania różnych konfiguracji w celu zmniejszenia rozmiaru podpowiedzi.

Moduł pamięci uwagi neuronowej

Universal Transformer Memory optymalizuje sygnały przy użyciu modelu pamięci neuronowej (NAMM), prostych sieci neuronowych, które decydują, czy „zapamiętać”, czy „zapomnieć” każdy dany token przechowywany w pamięci LLM.

„Ta nowa funkcja pozwala Transformersom odrzucić bezużyteczne lub niepotrzebne szczegóły i skupić się na najważniejszych informacjach, które uważamy za ważne w przypadku zadań wymagających długiego rozumowania kontekstowego” – napisali naukowcy.

Uniwersalna pamięć transformatorowa (źródło: Sakana AI)

NAMM są szkolone oddzielnie od LLM i łączone z wcześniej wyszkolonymi modelami w momencie wnioskowania, dzięki czemu są elastyczne i łatwe do wdrożenia. Wymagają jednak dostępu do wewnętrznych aktywacji modelu, co oznacza, że można je zastosować tylko do modeli typu open source.

Podobnie jak inne technologie opracowane przez Sakana AI, NAMM podlega szkoleniu ewolucyjny algorytm Zamiast metod optymalizacji opartych na gradiencie. Dzięki iteracyjnemu przekształcaniu i wybieraniu najskuteczniejszych modeli metodą prób i błędów algorytmy programistyczne optymalizują NAMM pod kątem wydajności i wydajności. Jest to szczególnie ważne, ponieważ NAMM stara się osiągnąć niezróżnicowany cel: zatrzymać token lub z niego zrezygnować.

NAMM działają na warstwach uwagi LLM, jednego z kluczowych elementów architektury Transformera, który określa relacje i znaczenie każdego tokena w oknie kontekstowym modelu. Na podstawie wartości uwagi NAMM określają, które tokeny należy zachować, a które można usunąć z okna kontekstowego LLM. Ten mechanizm oparty na uwadze umożliwia wykorzystanie NAMM przeszkolonego na różnych modelach bez żadnych dalszych modyfikacji. Na przykład NAMM przeszkolony na danych tekstowych można zastosować w modelach wizyjnych lub multimodalnych bez dodatkowego szkolenia.

pamięć uniwersalna w akcji

Aby przetestować koncepcję uniwersalnej pamięci transformatorowej w działaniu, badacze przeszkolili NAMM na modelu Meta LAMA 3-8B o otwartym kodzie źródłowym. Ich eksperymenty pokazują, że dzięki NAMM modele oparte na transformatorach radzą sobie lepiej z problemami związanymi z językiem naturalnym i kodowaniem w bardzo długich sekwencjach. Tymczasem, usuwając niepotrzebne tokeny, NAMM umożliwił modelowi LLM zaoszczędzenie do 75% pamięci podręcznej podczas wykonywania zadań.

„Według naszych testów transformatory NAMM Llama 3-8B zapewniają wyraźną poprawę wydajności” – piszą naukowcy. „Co więcej, nasze systemy pamięci powodują zauważalne skutki uboczne, zmniejszając rozmiar referencyjny każdej warstwy, nigdy jednak nie optymalizując bezpośrednio pod kątem wydajności pamięci”.

Przetestowano także wersję LAMA 70B, a także modele Transformer zaprojektowane do innych modalności i zadań, takie jak LAVA (wizja komputerowa) i Transformator decyzyjny (uczenie się ze wzmocnieniem).

„Nawet w przypadku ustawień poza dystrybucją NAMM zachowują swoje zalety, odrzucając niepotrzebne klatki wideo i nieoptymalne zadania, takie jak tokeny, dzięki czemu nowy model podstawowy może poprawić wydajność” – napisali badacze najbardziej istotne informacje.”

zachowanie zależne od zadania

Kolejnym interesującym odkryciem jest to, że NAMM automatycznie dostosowują swoje zachowanie w zależności od zadania.

Na przykład w przypadku zadań związanych z kodowaniem model usuwa ciągłe części tokenów pasujące do komentarzy i spacji, które nie mają wpływu na wykonanie kodu.

Natomiast w zadaniach języka naturalnego model usuwa tokeny, które reprezentują redundancję gramatyczną i nie wpływają na znaczenie ciągu.

Naukowcy zwolnieni Kod do stworzenia własnego NAMMTechnologie takie jak Universal Transformer Memory mogą być bardzo przydatne w zastosowaniach korporacyjnych, które przetwarzają miliony tokenów i mogą zyskać na zwiększonej szybkości i obniżonych kosztach. Możliwość ponownego wykorzystania Trained NAMM sprawia, że jest to wszechstronne narzędzie do wykorzystania w różnych zastosowaniach w całym przedsiębiorstwie.

Na przyszłość badacze sugerują bardziej zaawansowane techniki, takie jak wykorzystanie NAMM podczas treningu LLM w celu dalszego zwiększania ich zdolności pamięci.

„Prace te zaczynają wykorzystywać potencjał naszej nowej klasy modeli pamięci, który, jak przewidujemy, może zapewnić wiele nowych możliwości udoskonalania przyszłych generacji transformatorów” – napisali naukowcy.

Codzienne wglądy w biznesowe przypadki użycia z VB Daily

Jeśli chcesz zaimponować swojemu szefowi, VB Daily jest dla Ciebie. Dajemy Ci wgląd w to, co firmy robią z generyczną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenie, dzięki czemu możesz dzielić się spostrzeżeniami w celu uzyskania maksymalnego zwrotu z inwestycji.

Przeczytaj naszą politykę prywatności

Dziękujemy za subskrypcję. Więcej biuletynów VB znajdziesz tutaj.

Wystąpił błąd.

Source link

Nowa technika optymalizacji LLM zmniejsza koszty pamięci nawet o 75%

Optymalizacja pamięci transformatora

Moduł pamięci uwagi neuronowej

pamięć uniwersalna w akcji

zachowanie zależne od zadania

Najświeższe wiadomości

Mädchen Amick otwiera się na temat „trwającej” podróży Son Sly’a w...

Model sztucznej inteligencji Diffbota nie zgaduje – wie dzięki wykresowi wiedzy...

„Człowiek-wilk” Blumhouse’a wydaje się być potworem w kasie

Jak można finansować odrodzenie Europy?

Dlaczego najlepszy film familijny science-fiction pierwszej dekady XXI wieku rozbił się...

CES 2025: Pionier urządzenia do noszenia ze sztuczną inteligencją B słucha,...

Kategorie