Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Nowa architektura sieci neuronowej opracowana przez badaczy Google może rozwiązać jedno z największych wyzwań stojących przed dużymi modelami językowymi (LLM): rozszerzanie pamięci w przewidywalnym czasie bez nadmiernego zwiększania pamięci i kosztów obliczeń. zwany tytaniArchitektura umożliwia modelowi znajdowanie i przechowywanie małych fragmentów informacji podczas wnioskowania, które są ważne w dłuższych sekwencjach.

Titans łączy tradycyjne bloki uwagi LLM z warstwami „pamięci neuronowej”, które umożliwiają modelowi efektywną obsługę zadań związanych z pamięcią krótko- i długoterminową. Według naukowców technologie LLM wykorzystujące długoterminową pamięć neuronową mogą skalować się do milionów tokenów i przewyższać zarówno klasyczne LLM, jak i alternatywy, takie jak Mamba, przy znacznie mniejszej liczbie parametrów.

Skoncentruj się na warstwach i modelach liniowych

Zastosowano klasyczną architekturę Transformer stosowaną w LLM system samouważności Aby obliczyć relacje między tokenami. Jest to skuteczna technika, która umożliwia uczenie się złożonych i szczegółowych wzorców w sekwencjach tokenów. Jednakże wraz ze wzrostem długości sekwencji koszty obliczeń i pamięci związane z obliczaniem i przechowywaniem uwagi rosną kwadratowo.

Najnowsze propozycje obejmują alternatywne architektury o złożoności liniowej i umożliwiające skalowanie bez zwiększania ilości pamięci i kosztów obliczeniowych. Badacze Google twierdzą jednak, że modele liniowe nie wykazują się konkurencyjną wydajnością w porównaniu z klasycznymi Transformersami, ponieważ kompresują istotne dane i pomijają ważne szczegóły.

Sugeruje, że idealna architektura powinna mieć oddzielne komponenty pamięci, które można koordynować w celu wykorzystania istniejącej wiedzy, zapamiętywania nowych faktów i abstrakcyjnego uczenia się na podstawie ich kontekstu.

„Uważamy, że w paradygmacie skutecznego uczenia się, podobnym do ludzkiego mózgu, istnieją odrębne, ale wzajemnie powiązane moduły, z których każdy jest odpowiedzialny za kluczowy element procesu uczenia się” – piszą naukowcy.

neurologiczna pamięć długoterminowa

Naukowcy piszą: „Istnieje konsorcjum systemów pamięci – na przykład pamięci krótkotrwałej, roboczej i długotrwałej – z których każdy pełni inną funkcję za pomocą różnych struktur neuronowych i każdy jest w stanie działać niezależnie”.

Aby wypełnić lukę w obecnych modelach językowych, badacze proponują moduł „neuralnej pamięci długotrwałej”, który może uczyć się nowych informacji w momencie wnioskowania bez nieefektywności mechanizmów pełnej uwagi. Zamiast przechowywać informacje podczas treningu, moduł pamięci neuronowej uczy się funkcji, która może zapamiętywać nowe fakty podczas wnioskowania i dynamicznie dostosowywać proces zapamiętywania na podstawie napotkanych danych. Rozwiązuje to problem uogólnienia, na który cierpią inne architektury sieci neuronowych.

Aby zdecydować, jakie informacje warto przechowywać, moduł pamięci neuronowej wykorzystuje koncepcję „niespodzianki”. Im bardziej kolejność tokenów odbiega od wag modelu i rodzaju informacji przechowywanych w istniejącej pamięci, tym bardziej jest zaskakująca i dlatego warto o niej pamiętać. Umożliwia to modułowi efektywne wykorzystanie ograniczonej pamięci i przechowywanie tylko tych fragmentów danych, które dodają przydatne informacje do tego, co model już wie.

Aby obsłużyć bardzo długie sekwencje danych, moduł pamięci neuronowej posiada mechanizm adaptacyjnego zapominania, który pozwala mu usuwać informacje, które nie są już potrzebne, co pomaga zarządzać ograniczoną pojemnością pamięci.

Moduł pamięci może uzupełniać mechanizm uwagi obecnego modelu Transformera, który badacze opisują jako „moduł pamięci krótkotrwałej, który monitoruje bieżący rozmiar okna kontekstowego”. Z drugiej strony nasza pamięć neuronowa, posiadająca zdolność ciągłego uczenia się na podstawie danych i przechowywania ich w swoim ładunku, może pełnić rolę pamięci długotrwałej.

architektura tytanów

Przykład architektury Tytana (źródło: arXiv)

Naukowcy opisują Tytanów jako rodzinę modeli, które zawierają istniejące bloki transformatorów z modułami pamięci neuronowej. Model składa się z trzech głównych komponentów: modułu „rdzeniowego”, który działa jak pamięć krótkotrwała i wykorzystuje klasyczne mechanizmy uwagi, aby zwracać uwagę na bieżący segment tokenów wejściowych przetwarzanych przez model; moduł „pamięci długotrwałej”, który wykorzystuje architekturę pamięci neuronowej do przechowywania informacji poza bieżącym kontekstem; oraz moduł „pamięci trwałej”, których parametry można się nauczyć, które pozostają stabilne po treningu i przechowują wiedzę niezależną od czasu.

Badacze proponują różne sposoby łączenia trzech komponentów. Ale ogólnie rzecz biorąc, główną zaletą tej architektury jest umożliwienie wzajemnego uzupełniania się modułów uwagi i pamięci. Na przykład warstwy uwagi mogą wykorzystywać kontekst historyczny i bieżący do określenia, które części bieżącego okna kontekstu powinny być przechowywane w pamięci długotrwałej. Tymczasem pamięć długoterminowa dostarcza wiedzy historycznej, która nie jest obecna w bieżącym kontekście uwagi.

Naukowcy przeprowadzili testy na małą skalę na modelu Titan, obejmujące od 170 milionów do 760 milionów parametrów, w ramach różnych zadań, w tym modelowania języka i zadań językowych o długich sekwencjach. Porównali wydajność sieci TITAN z różnymi modelami opartymi na transformatorach, modelami liniowymi, takimi jak Mamba, i modelami hybrydowymi, takimi jak Samba.

Tytani (czerwona linia) przewyższają inne modele, w tym GPT-4, w zadaniach o długich sekwencjach, zarówno w ustawieniach kilku strzałów, jak i dostrojonych (źródło: arXiv)

Tytani wypadli dobrze w modelowaniu językowym w porównaniu z innymi modelami i osiągnęli lepsze wyniki zarówno w modelach Transformer, jak i Linear o podobnej wielkości.

Różnica w wydajności jest szczególnie wyraźna w przypadku zadań składających się z długich sekwencji, takich jak „igła w stogu sianagdzie model musi pobierać fragmenty informacji z bardzo długiej sekwencji, oraz babylongGdzie model musi uzasadniać fakty rozproszone w bardzo długich dokumentach. W rzeczywistości w przypadku tych zadań TITAN uzyskał lepsze wyniki niż modele charakteryzujące się o rząd wielkości większą liczbą parametrów, w tym GPT-4 i GPT-4O-mini oraz zaawansowany model Llama-3 z generacją wspomaganą odzyskiwaniem (RAG).

Dodatkowo badaczom udało się zwiększyć okno kontekstowe Tytanów do 2 milionów tokenów, utrzymując koszty pamięci na skromnym poziomie.

Modele wymagają jeszcze testów w większych rozmiarach, ale wyniki artykułu pokazują, że badacze nie osiągnęli jeszcze granic potencjału tytanów.

Co to oznacza dla aplikacji korporacyjnych?

Ponieważ Google przoduje w tworzeniu modeli długokontekstowych, możemy spodziewać się, że technologia ta znajdzie zastosowanie w prywatnych i otwartych modelach, takich jak Gemini i Gemma.

Ponieważ LLM obsługuje dłuższe okna kontekstowe, rośnie potencjał tworzenia aplikacji, w których wciskasz nową wiedzę w podpowiedzi, zamiast korzystać z technik takich jak RAG. Cykl programistyczny służący do tworzenia i iteracji aplikacji opartych na podpowiedziach jest znacznie szybszy niż złożone potoki RAG. Tymczasem architektury takie jak Titans mogą pomóc w obniżeniu kosztów wnioskowania w przypadku bardzo długich sekwencji, umożliwiając firmom wdrażanie aplikacji LLM w większej liczbie przypadków użycia.

Google planuje udostępnić kod PyTorch i JAX do szkolenia i oceniania modeli Tytanów.


Source link