Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Ponieważ przedsiębiorstwa w dalszym ciągu przyjmują duże modele językowe (LLM) w różnych zastosowaniach, jednym z kluczowych wyzwań, przed którymi stoją, jest poprawa wiedzy merytorycznej na temat modeli i ograniczenie halucynacji. W nowym artykule badacze meta AI Wniosek „Skalowalne warstwy pamięci”, co może być jednym z wielu możliwych rozwiązań tego problemu.
Skalowalne warstwy pamięci dodają więcej parametrów do LLM, aby zwiększyć jego możliwości uczenia się bez konieczności stosowania dodatkowych zasobów obliczeniowych. Architektura jest przydatna w zastosowaniach, w których można zaoszczędzić dodatkową pamięć na wiedzę faktograficzną, ale jednocześnie wymagana jest szybkość wnioskowania zapewniająca zwinniejszy model.
warstwy gęste i pamięciowe
Tradycyjne modele językowe wykorzystują „gęste warstwy” do kodowania dużych ilości informacji w swoich parametrach. W gęstych warstwach wszystkie parametry są wykorzystywane w pełni i są najczęściej aktywne w tym samym czasie podczas wnioskowania. Gęste warstwy mogą uczyć się złożonych zadań, a ich skalowanie wymaga dodatkowych zasobów obliczeniowych i energetycznych.
Natomiast w przypadku prostej wiedzy faktograficznej znacznie prostsze warstwy z architekturami pamięci asocjacyjnej będą bardziej wydajne i łatwiejsze do interpretacji. To właśnie robią warstwy pamięci. Wykorzystują proste mechanizmy rzadkiej aktywacji i wyszukiwania wartości kluczy do kodowania i odzyskiwania wiedzy. Warstwy rzadkie zajmują więcej pamięci niż warstwy gęste, ale jednocześnie wykorzystują tylko niewielką część parametrów, co czyni je bardziej wydajnymi obliczeniowo.
Warstwy pamięci istnieją od wielu lat, ale są rzadko używane w nowoczesnych architekturach głębokiego uczenia się. Nie są zoptymalizowane pod kątem obecnych akceleratorów sprzętowych.
Obecne pionierskie LLM zazwyczaj wykorzystują jakąś formę architektury „mieszanki ekspertów” (MOE), która wykorzystuje mechanizm podobny do warstw pamięci. Modele MoE składają się z wielu mniejszych, specjalistycznych komponentów, które specjalizują się w określonych zadaniach. W momencie wnioskowania mechanizm routingu określa, który ekspert stanie się aktywny, na podstawie sekwencji wejściowej. PEER, architektura opracowana niedawno przez Google DeepMind, rozszerza MoE na miliony ekspertów, zapewniając bardziej szczegółową kontrolę nad parametrami aktywnymi podczas wnioskowania.
uaktualnij warstwy pamięci
Warstwy pamięci wymagają lekkich obliczeń, ale obciążają pamięć, co stwarza szczególne wyzwania dla obecnych struktur sprzętowych i programowych. W swoim artykule metabadacze proponują kilka modyfikacji, które odpowiadają na te wyzwania i umożliwiają ich zastosowanie na większą skalę.
Najpierw badacze skonfigurowali warstwy pamięci pod kątem równoległości, rozdzielając je na wiele procesorów graficznych w celu przechowywania milionów par klucz-wartość bez zmiany innych warstw w modelu. Zaimplementowali także wyspecjalizowane jądro CUDA do obsługi operacji wymagających dużej przepustowości pamięci. Opracowali także mechanizm współdzielenia parametrów, który obsługuje zestaw parametrów pamięci w wielu warstwach pamięci w ramach modelu. Oznacza to, że klucze i wartości używane do wyszukiwań są współdzielone pomiędzy warstwami.
Modyfikacje te umożliwiają implementację warstw pamięci w ramach LLM bez spowalniania modelu.
„Warstwy pamięci dobrze uzupełniają gęste sieci dzięki rzadkim aktywacjom, zapewniając większą zdolność wyszukiwania wiedzy, a jednocześnie lżejsze w obliczeniach” – piszą naukowcy. „Można je skutecznie skalować i zapewnić praktykom nowy, ekscytujący kierunek w zakresie kompromisu w zakresie pamięci i obliczeń”.
Aby przetestować warstwy pamięci, badacze zmodyfikowali model Lamy, zastępując jedną lub więcej gęstych warstw warstwą pamięci współdzielonej. Porównali modele wykorzystujące pamięć z gęstymi modelami LLM, a także MOE i PEER w zakresie szeregu zadań, w tym odpowiadania na pytania oparte na faktach, wiedzy naukowej i wiedzy ogólnej oraz kodowania.
Ich odkrycia pokazują, że modele pamięci znacznie poprawiają się w przypadku gęstych linii bazowych i konkurują z modelami, które wykorzystują 2–4 razy więcej obliczeń. Odpowiadają również wydajnością modeli MoE, które mają ten sam budżet obliczeniowy i liczbę parametrów. Wydajność modelu jest szczególnie godna uwagi w przypadku zadań wymagających wiedzy merytorycznej. Na przykład, jeśli chodzi o odpowiadanie na pytania oparte na faktach, model pamięci z 1,3 miliardem parametrów zbliża się do wydajności Lamy-2-7B, trenowanej na dwukrotnie większej liczbie tokenów i 10 razy większej liczbie obliczeń.
Co więcej, badacze odkryli, że korzyści płynące z modelu pamięci pozostały spójne z rozmiarem modelu w miarę skalowania eksperymentów ze 134 milionów do 8 miliardów parametrów.
„Biorąc pod uwagę te ustalenia, zdecydowanie opowiadamy się za integracją warstw pamięci ze wszystkimi architekturami sztucznej inteligencji nowej generacji” – piszą naukowcy, dodając jednocześnie, że nadal jest wiele do zrobienia. „W szczególności mamy nadzieję, że uda się opracować nowe metody uczenia się, które jeszcze bardziej zwiększą skuteczność tych warstw, co doprowadzi do ograniczenia zapominania, halucynacji i bardziej trwałego uczenia się”.
Source link