Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Generowanie wspomagane wyszukiwaniem (RAG) stało się de facto sposobem dostosowywania dużych modeli językowych (LLM) do specjalistycznych informacji. Jednak RAG wiąże się z początkowymi kosztami technicznymi i może być powolny. Teraz, dzięki postępom w LLM o długich odniesieniach, przedsiębiorstwa mogą ominąć RAG, wprowadzając wszystkie zastrzeżone informacje w monicie.

A nowe badanie Narodowy Uniwersytet Chengchi na Tajwanie pokazał, że stosując techniki LLM o długim kontekście i buforowanie, można tworzyć zoptymalizowane aplikacje, które przewyższają potoki RAG. Podejście to, zwane generowaniem wspomaganym pamięcią podręczną (CAG), może być prostym i skutecznym zamiennikiem RAG w ustawieniach przedsiębiorstwa, w których repozytorium wiedzy może zmieścić się w oknie kontekstowym modelu.

Ograniczenia RAG

RAG to skuteczny sposób obsługi zapytań w domenie otwartej i określonych zadań. Wykorzystuje algorytmy wyszukiwania do gromadzenia dokumentów istotnych dla żądania i dodawania kontekstu, aby umożliwić LLM sformułowanie dokładniejszych odpowiedzi.

Jednak RAG wprowadza kilka ograniczeń w zastosowaniach LLM. Dodany etap odzyskiwania wprowadza opóźnienia, które mogą pogorszyć komfort użytkownika. Wynik zależy także od jakości selekcji dokumentów i etapu rankingu. W wielu przypadkach ograniczenia modelu stosowanego do odzyskiwania wymagają dzielenia dokumentów na mniejsze części, co może zaszkodzić procesowi odzyskiwania.

Ogólnie rzecz biorąc, RAG zwiększa złożoność aplikacji LLM, wymagając rozwoju, integracji i konserwacji dodatkowych komponentów. Dodatkowe obciążenie spowalnia proces programowania.

odzyskiwanie wspomagane pamięcią podręczną

RAG (na górze) vs CAG (na dole) (Źródło: arXiv)

Alternatywą dla opracowania potoku RAG jest wstawienie całego korpusu dokumentu do zachęty i umożliwienie modelowi wybrania bitów istotnych dla żądania. Podejście to eliminuje złożoność rurociągu RAG i problemy spowodowane błędami odzyskiwania.

Istnieją jednak trzy główne wyzwania związane z ładowaniem wszystkich dokumentów w wierszu poleceń od przodu. Po pierwsze, długie sygnały spowalniają model i zwiększają koszt estymacji. Po drugie, długość okna kontekstowego LLM ogranicza liczbę dokumentów, które mieszczą się w monicie. I wreszcie dodanie nieistotnych informacji do podpowiedzi może zmylić model i obniżyć jakość jego odpowiedzi. Dlatego wypełnienie wszystkich dokumentów w monicie zamiast wybierania najbardziej odpowiednich dokumentów może zaszkodzić wydajności modelu.

Podejście zaproponowane przez CAG wykorzystuje trzy kluczowe trendy, aby stawić czoła tym wyzwaniom.

Po pierwsze, zaawansowana technologia buforowania sprawia, że ​​przetwarzanie szablonów błyskawicznych jest szybsze i tańsze. Założeniem CAG jest to, że dokumenty wiedzy będą dołączane do każdego monitu wysyłanego do modelu. Dlatego możesz obliczyć wartość uwagi swoich tokenów z wyprzedzeniem, zamiast robić to po otrzymaniu prośby. To wcześniejsze obliczenie skraca czas przetwarzania żądań użytkowników.

Wiodący dostawcy LLM, tacy jak OpenAI, Anthropic i Google, oferują funkcje szybkiego buforowania powtarzających się części podpowiedzi, które mogą zawierać dokumenty merytoryczne i instrukcje wstawiane na początku podpowiedzi. Dzięki Anthropic możesz zmniejszyć koszty nawet o 90% i opóźnienia nawet o 85% w przypadku buforowanych części podpowiedzi. Opracowano równoważne funkcje buforowania dla platform hostingowych LLM typu open source.

Po drugie, LLM z dłuższymi referencjami ułatwiają zmieszczenie większej liczby dokumentów i wiedzy w podpowiedziach. Cloud 3.5 Sonnet obsługuje do 200 000 tokenów, podczas gdy GPT-4o obsługuje do 128 000 tokenów, a Gemini do 2 milionów tokenów. Dzięki temu w monicie można umieścić wiele dokumentów lub całych ksiąg.

I wreszcie, zaawansowane metody uczenia umożliwiają modelom lepsze wyszukiwanie, wnioskowanie i odpowiadanie na pytania w bardzo długich sekwencjach. W ubiegłym roku badacze opracowali kilka testów porównawczych LLM dla zadań o długich sekwencjach, m.in babylong, długa ławkaI linijkaTe testy porównawcze testują LLM pod kątem trudnych problemów, takich jak wielokrotne pobieranie i odpowiadanie na pytania z wieloma przeskokami. W tej dziedzinie nadal jest wiele do zrobienia, ale laboratoria zajmujące się sztuczną inteligencją czynią stałe postępy.

W miarę jak nowe generacje modeli będą nadal poszerzać swoje okna kontekstowe, będą one w stanie przetwarzać większe zbiory wiedzy. Co więcej, możemy oczekiwać, że modele będą w dalszym ciągu doskonalić swoje umiejętności wydobywania i wykorzystywania istotnych informacji z dłuższych kontekstów.

„Te dwa trendy znacznie zwiększą użyteczność naszego podejścia, dzięki czemu będzie ono w stanie obsługiwać bardziej złożone i różnorodne zastosowania” – napisali naukowcy. „W rezultacie nasza metodologia jest dobrze przygotowana, aby stać się solidnym i wszechstronnym rozwiązaniem do zadań wymagających dużej wiedzy, wykorzystującym rosnące możliwości następnej generacji LLM”.

RAG kontra CAG

Aby porównać RAG i CAG, badacze przeprowadzili eksperymenty na dwóch powszechnie uznawanych testach porównawczych: drużynaktóry koncentruje się na zadawania pytań kontekstowych i udzielaniu odpowiedzi na podstawie pojedynczych dokumentów, oraz HotPotQACo wymaga logiki wielu przeskoków w wielu dokumentach.

Wykorzystali model LAMA-3.1-8B z oknem referencyjnym na 128 000 tokenów. W przypadku RAG połączono LLM z dwoma systemami wyszukiwania, aby odzyskać fragmenty istotne dla pytania: oryginał Algorytm BM25 I osadzanie OpenAI. W przypadku CAG wprowadzono do podpowiedzi kilka dokumentów z testu porównawczego i umożliwiono modelowi określenie, których fragmentów należy użyć, aby odpowiedzieć na pytanie. Ich eksperymenty pokazują, że CAG w większości sytuacji przewyższa oba systemy RAG.

CAG przewyższa zarówno rzadki RAG (pobieranie BM25), jak i gęsty RAG (osadzanie OpenAI) (źródło: arXiv)

„Wstępnie ładując cały kontekst ze zbioru testowego, nasz system eliminuje błędy wyszukiwania i zapewnia całościowe rozumowanie na podstawie wszystkich istotnych informacji” – napisali naukowcy. „Korzyść ta jest szczególnie widoczna w scenariuszach, w których systemy RAG mogą odzyskiwać niekompletne lub nieistotne fragmenty, co prowadzi do nieoptymalnego generowania odpowiedzi”.

CAG znacznie skraca także czas przygotowania odpowiedzi, zwłaszcza gdy zwiększa się długość tekstu referencyjnego.

Czas produkcji CAG jest znacznie krótszy niż RAG (źródło: arXiv)

Powiedział, że CAG nie jest złotym środkiem i należy go stosować ostrożnie. Nadaje się do ustawień, w których baza wiedzy nie zmienia się często i jest wystarczająco mała, aby zmieścić się w oknie kontekstowym modelu. Przedsiębiorstwa powinny także zachować ostrożność w przypadku, gdy ich dokumenty zawierają sprzeczne fakty w zależności od kontekstu dokumentów, co mogłoby zmylić model podczas estymacji.

Najlepszym sposobem sprawdzenia, czy CAG dobrze pasuje do Twojego przypadku użycia, jest przeprowadzenie kilku eksperymentów. Na szczęście CAG jest bardzo łatwy do wdrożenia i zawsze należy go traktować jako pierwszy krok przed inwestycją w bardziej wymagające rozwoju rozwiązania RAG.


Source link