Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Naukowcy z tokijskiego startupu Sakana AI opracowali nową technologię, która umożliwia modelom językowym efektywniejsze wykorzystanie pamięci, umożliwiając przedsiębiorstwom tworzenie aplikacji w oparciu o duże modele językowe (LLM) i inne modele oparte na transformatorach. Pomaga w obniżeniu kosztów budowy.
technologii, zwanej także „uniwersalny pamięć transformatoraZoptymalizowany LLM wykorzystuje wyspecjalizowane sieci neuronowe do przechowywania ważnych informacji i usuwania niepotrzebnych szczegółów z ich kontekstu.
Optymalizacja pamięci transformatora
Reakcje modeli Transformera, stanowiących szkielet LLM, zależą od zawartości ich „okna kontekstowego”, czyli tego, co otrzymują jako dane wejściowe od użytkowników.
Okno kontekstowe można uznać za pamięć roboczą modelu. Zmiana zawartości okna kontekstowego może mieć ogromny wpływ na wydajność modelu, co dało początek całej dziedzinie „inżynierii przyspieszonej”.
Obecne modele obsługują bardzo długie okna kontekstowe z setkami tysięcy, a nawet milionami tokenów (numeryczne reprezentacje słów, części słów, fraz, pojęć i liczb wprowadzanych przez użytkowników w podpowiedziach w LLM).
Dzięki temu użytkownicy mogą umieścić więcej informacji w swoich sygnałach. Jednak dłuższe sygnały mogą skutkować wyższymi kosztami obliczeń i mniejszą wydajnością. Optymalizacja sygnałów w celu usunięcia niepotrzebnych tokenów przy jednoczesnym zachowaniu ważnych informacji może obniżyć koszty i zwiększyć prędkość.
Obecne techniki dostosowywania podpowiedzi wymagają dużych zasobów lub wymagają od użytkowników ręcznego testowania różnych konfiguracji w celu zmniejszenia rozmiaru podpowiedzi.
Moduł pamięci uwagi neuronowej
Universal Transformer Memory optymalizuje sygnały przy użyciu modelu pamięci neuronowej (NAMM), prostych sieci neuronowych, które decydują, czy „zapamiętać”, czy „zapomnieć” każdy dany token przechowywany w pamięci LLM.
„Ta nowa funkcja pozwala Transformersom odrzucić bezużyteczne lub niepotrzebne szczegóły i skupić się na najważniejszych informacjach, które uważamy za ważne w przypadku zadań wymagających długiego rozumowania kontekstowego” – napisali naukowcy.
NAMM są szkolone oddzielnie od LLM i łączone z wcześniej wyszkolonymi modelami w momencie wnioskowania, dzięki czemu są elastyczne i łatwe do wdrożenia. Wymagają jednak dostępu do wewnętrznych aktywacji modelu, co oznacza, że można je zastosować tylko do modeli typu open source.
Podobnie jak inne technologie opracowane przez Sakana AI, NAMM podlega szkoleniu ewolucyjny algorytm Zamiast metod optymalizacji opartych na gradiencie. Dzięki iteracyjnemu przekształcaniu i wybieraniu najskuteczniejszych modeli metodą prób i błędów algorytmy programistyczne optymalizują NAMM pod kątem wydajności i wydajności. Jest to szczególnie ważne, ponieważ NAMM stara się osiągnąć niezróżnicowany cel: zatrzymać token lub z niego zrezygnować.
NAMM działają na warstwach uwagi LLM, jednego z kluczowych elementów architektury Transformera, który określa relacje i znaczenie każdego tokena w oknie kontekstowym modelu. Na podstawie wartości uwagi NAMM określają, które tokeny należy zachować, a które można usunąć z okna kontekstowego LLM. Ten mechanizm oparty na uwadze umożliwia wykorzystanie NAMM przeszkolonego na różnych modelach bez żadnych dalszych modyfikacji. Na przykład NAMM przeszkolony na danych tekstowych można zastosować w modelach wizyjnych lub multimodalnych bez dodatkowego szkolenia.
pamięć uniwersalna w akcji
Aby przetestować koncepcję uniwersalnej pamięci transformatorowej w działaniu, badacze przeszkolili NAMM na modelu Meta LAMA 3-8B o otwartym kodzie źródłowym. Ich eksperymenty pokazują, że dzięki NAMM modele oparte na transformatorach radzą sobie lepiej z problemami związanymi z językiem naturalnym i kodowaniem w bardzo długich sekwencjach. Tymczasem, usuwając niepotrzebne tokeny, NAMM umożliwił modelowi LLM zaoszczędzenie do 75% pamięci podręcznej podczas wykonywania zadań.
„Według naszych testów transformatory NAMM Llama 3-8B zapewniają wyraźną poprawę wydajności” – piszą naukowcy. „Co więcej, nasze systemy pamięci powodują zauważalne skutki uboczne, zmniejszając rozmiar referencyjny każdej warstwy, nigdy jednak nie optymalizując bezpośrednio pod kątem wydajności pamięci”.
Przetestowano także wersję LAMA 70B, a także modele Transformer zaprojektowane do innych modalności i zadań, takie jak LAVA (wizja komputerowa) i Transformator decyzyjny (uczenie się ze wzmocnieniem).
„Nawet w przypadku ustawień poza dystrybucją NAMM zachowują swoje zalety, odrzucając niepotrzebne klatki wideo i nieoptymalne zadania, takie jak tokeny, dzięki czemu nowy model podstawowy może poprawić wydajność” – napisali badacze najbardziej istotne informacje.”
zachowanie zależne od zadania
Kolejnym interesującym odkryciem jest to, że NAMM automatycznie dostosowują swoje zachowanie w zależności od zadania.
Na przykład w przypadku zadań związanych z kodowaniem model usuwa ciągłe części tokenów pasujące do komentarzy i spacji, które nie mają wpływu na wykonanie kodu.
Natomiast w zadaniach języka naturalnego model usuwa tokeny, które reprezentują redundancję gramatyczną i nie wpływają na znaczenie ciągu.
Naukowcy zwolnieni Kod do stworzenia własnego NAMMTechnologie takie jak Universal Transformer Memory mogą być bardzo przydatne w zastosowaniach korporacyjnych, które przetwarzają miliony tokenów i mogą zyskać na zwiększonej szybkości i obniżonych kosztach. Możliwość ponownego wykorzystania Trained NAMM sprawia, że jest to wszechstronne narzędzie do wykorzystania w różnych zastosowaniach w całym przedsiębiorstwie.
Na przyszłość badacze sugerują bardziej zaawansowane techniki, takie jak wykorzystanie NAMM podczas treningu LLM w celu dalszego zwiększania ich zdolności pamięci.
„Prace te zaczynają wykorzystywać potencjał naszej nowej klasy modeli pamięci, który, jak przewidujemy, może zapewnić wiele nowych możliwości udoskonalania przyszłych generacji transformatorów” – napisali naukowcy.
Source link