Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Halucynacje lub reakcje nieprawidłowe pod względem faktycznym w dalszym ciągu wpływają na duże modele językowe (LLM). Modele zawodzą szczególnie, gdy stawia się im bardziej złożone zadania i gdy użytkownicy szukają konkretnych i bardzo szczegółowych odpowiedzi.
Jest to wyzwanie, z którym zmagali się analitycy danych, a teraz także badacze Google Deep Mind Powiedz, że są o krok bliżej osiągnięcia prawdziwej faktyczności w Modelu Podstawowym. Wprowadzili FACTS Grounding, punkt odniesienia oceniający zdolność LLM do generowania zgodnych z faktami odpowiedzi na podstawie długich dokumentów. Modele są również oceniane na podstawie tego, czy ich odpowiedzi są wystarczająco szczegółowe, aby zapewnić przydatne i istotne odpowiedzi na sygnały.
Dzięki nowym benchmarkom badacze opublikowali plik tabela faktów Kaggle dla społeczności zajmującej się nauką o danych.
Od tego tygodnia Gemini 2.0 Flash zajmuje pierwsze miejsce w tabeli wyników z wynikiem merytorycznym na poziomie 83,6%. Inne w pierwszej dziewiątce to Google Gemini 1.0 Flash i Gemini 1.5 Pro; Anthropic Claude 3.5 Sonnet i Claude 3.5 Haiku; oraz GPT-4o, 4o-mini, o1-mini i o1-preview OpenAI. Wszystkie mają skuteczność powyżej 61,7%.
Naukowcy twierdzą, że ranking będzie aktywnie utrzymywany i stale aktualizowany o nowe modele i ich różne iteracje.
„Uważamy, że ten test porównawczy wypełnia lukę w ocenie szerokiej gamy zachowań modeli związanych z faktami w porównaniu do testów porównawczych, które koncentrują się na wąskich przypadkach użycia… takich jak tylko podsumowanie” – napisali badacze papier techniczny Opublikowano w tym tygodniu.
sortowanie błędnych odpowiedzi
Trudno jest zapewnić rzeczową dokładność w odpowiedziach LLM ze względu na czynniki modelowania (architektura, szkolenie i szacowanie) i pomiaru (metodologia oceny, dane i metryki). Zazwyczaj, jak wyjaśniają badacze, szkolenie wstępne koncentruje się na przewidywaniu następnego tokenu na podstawie poprzedniego tokenu.
„Chociaż ten cel może dostarczyć modelowi wiedzy o świecie podstawowym, nie dostosowuje on bezpośrednio modelu do różnych scenariuszy faktycznych, zamiast tego zachęca model do generowania ogólnych wspaniały Lekcja” – piszą badacze.
Aby rozwiązać ten problem, zbiór danych FACTS obejmuje 1719 przypadków – 860 publicznych i 859 prywatnych – z których każde wymaga długich odpowiedzi w oparciu o kontekst w dostarczonych dokumentach. Każdy przykład zawiera:
- Podpowiedź systemowa (instrukcja_systemowa) zawierająca ogólne instrukcje i polecenie udzielenia odpowiedzi wyłącznie w oparciu o podany kontekst;
- Zadanie (user_request), które zawiera konkretne pytanie, na które należy odpowiedzieć;
- Długi dokument zawierający istotne informacje (context_document).
Aby odnieść sukces i zostać oznaczony jako „dokładny”, model musi przetworzyć długi dokument, a następnie wygenerować długą odpowiedź, która kompleksowo i całkowicie opisuje dokument. Odpowiedzi są oznaczone jako „niepoprawne”, jeśli twierdzenia modelki nie są bezpośrednio poparte dokumentem i nie są zbyt istotne ani przydatne.
Na przykład użytkownik może poprosić model o podsumowanie głównych powodów spadku przychodów firmy w trzecim kwartale i dostarczenie mu rocznego raportu finansowego firmy, zawierającego kwartalne zyski, wydatki, planowane inwestycje i analizę rynku dyskusja.
Gdyby model powrócił, powiedzmy: „W trzecim kwartale firma stanęła przed wyzwaniami, które wpłynęły na jej przychody”, zostałoby to uznane za fałszywe.
„W odpowiedzi nie podano żadnych przyczyn, takich jak trendy rynkowe, zwiększona konkurencja czy niepowodzenia operacyjne, które prawdopodobnie zostałyby udokumentowane” – podają badacze. „Nie oznacza to próby nawiązania kontaktu lub wydobycia istotnych szczegółów”.
I odwrotnie, jeśli użytkownik zapyta: „Jakie są wskazówki dotyczące oszczędzania pieniędzy?” Prawidłowa odpowiedź będzie zawierać zestawienie skategoryzowanych wskazówek dotyczących oszczędzania pieniędzy dla studentów, które będą bardzo szczegółowe: „Korzystaj z bezpłatnych zajęć na terenie kampusu, kupuj produkty hurtowo i gotuj posiłki w domu. Ustalaj także cele wydatków, unikaj kart kredytowych i oszczędzaj zasoby.
DeepMind wykorzystuje LLM do oceny LLM
Aby umożliwić różnorodne wprowadzanie danych, badacze uwzględnili dokumenty o różnej długości, do 32 000 tokenów (co odpowiada 20 000 słów). Należą do nich sektory obejmujące finanse, technologię, handel detaliczny, medycynę i prawo. Żądania użytkowników są również obszerne, w tym prośby o wygenerowanie quizu, podsumowanie i przepisanie.
Każdy przykład jest oceniany w dwóch etapach. Najpierw odpowiedzi są oceniane pod kątem kwalifikowalności: jeśli nie spełniają żądań użytkownika, zostają zdyskwalifikowane. Po drugie, odpowiedzi muszą być wolne od błędów i opierać się wyłącznie na dostarczonych dokumentach.
Te oceny faktyczności są obliczane przez trzech różnych sędziów LLM – w szczególności Gemini 1.5 Pro, GPT-4O i Cloud 3.5 Sonnet – którzy przyznają indywidualne oceny na podstawie procentu dokładnego wyniku modelu. Następnie ostateczna ocena faktyczna opiera się na średnich wynikach trzech sędziów.
Naukowcy podkreślają, że modele często są stronnicze w stosunku do innych członków rodziny modeli – średnie odchylenie wynosi około 3,23% – dlatego ważne było połączenie różnych sędziów, aby zapewnić, że odpowiedzi były rzeczywiście oparte na faktach.
Ostatecznie badacze podkreślają, że fakty i podstawowa rzeczywistość są ważnymi czynnikami wpływającymi na przyszły sukces i użyteczność LLM. „Wierzymy, że szeroko zakrojone metody analizy porównawczej w połączeniu z ciągłymi badaniami i rozwojem będą w dalszym ciągu ulepszać systemy sztucznej inteligencji” – piszą.
Przyznają jednak również, że: „Mamy świadomość, że postęp może prowadzić do szybszego przeprowadzania testów porównawczych, dlatego wprowadzenie naszego benchmarku i tabeli liderów FACTS Grounding to dopiero początek”.
Source link