Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Startup założony przez byłych badaczy metaAI opracował lekki model sztucznej inteligencji, który może oceniać inne systemy AI równie skutecznie, jak większe modele, dostarczając jednocześnie szczegółowych wyjaśnień swoich decyzji.
Patronus zawsze wydany dzisiaj szybowiecModel języka typu open source zawierający 3,8 miliarda parametrów, który przewyższa GPT-4O-Mini OpenAI w kilku kluczowych testach porównawczych do oceny wydajności AI. Model ma działać jako zautomatyzowany ewaluator, który może ocenić odpowiedzi systemu AI na podstawie setek różnych kryteriów, wyjaśniając jednocześnie jego uzasadnienie.
Anand Kannappan, dyrektor generalny i współzałożyciel Petronas AI, w ekskluzywnym wywiadzie dla VentureBeat powiedział: „Wszystko, co robimy w Petronas, jest przeznaczone dla programistów i każdego, kto korzysta z modeli językowych lub opracowuje nowe systemy LM. Koncentruje się na zapewnianiu wydajnej i niezawodnej oceny sztucznej inteligencji”.
Mały, ale potężny: jak Glider dorównuje wydajnościom GPT-4
Rozwój ten stanowi znaczący przełom w technologii oceny sztucznej inteligencji. Większość firm opiera się obecnie na dużych, zastrzeżonych modelach, takich jak GPT-4, przy ocenie swoich systemów AI, co może być kosztowne i nieprzejrzyste. Glider jest nie tylko bardziej opłacalny ze względu na mniejszy rozmiar, ale także zapewnia szczegółowe wyjaśnienia swoich decyzji za pomocą logiki punktorów i wyróżnionych fragmentów tekstu, które dokładnie pokazują, co wpłynęło na jego decyzje.
„Obecnie mamy kilku specjalistów LLM pełniących funkcję sędziów, ale nie wiemy, który z nich jest najlepszy w naszej pracy” – powiedział Darshan Deshpande, inżynier ds. badań w Petronas AI, który kierował projektem. „W tym artykule pokazujemy kilka postępów: wyszkoliliśmy model, który może działać na urządzeniach, wykorzystuje tylko 3,8 miliarda parametrów i zapewnia wysokiej jakości łańcuchy logiczne”.
Ocena w czasie rzeczywistym: szybkość i dokładność
Nowy model pokazuje, że mniejsze modele językowe mogą dorównywać lub przekraczać możliwości znacznie większych modeli językowych w przypadku określonych zadań. Szybowiec osiąga osiągi porównywalne z modelami 17 razy większymi podczas lotu z zaledwie jedną sekundą opóźnienia. Dzięki temu jest to praktyczne w zastosowaniach czasu rzeczywistego, w których firmy muszą oceniać wyniki AI w trakcie ich generowania.
Kluczową innowacją jest zdolność Glidera do jednoczesnej oceny wielu aspektów wyników sztucznej inteligencji. Model może ocenić takie czynniki, jak dokładność, bezpieczeństwo, spójność i ton na raz, zamiast wymagać oddzielnych przejść oceny. Pomimo tego, że był szkolony głównie na danych w języku angielskim, zachowuje również silne możliwości wielojęzyczne.
„Kiedy masz do czynienia ze środowiskiem czasu rzeczywistego, musisz maksymalnie zmniejszyć opóźnienia” – wyjaśnił Knappan. „Ten model reaguje zazwyczaj w ciągu sekundy, zwłaszcza gdy jest używany za pośrednictwem naszego produktu”.
Przede wszystkim prywatność: ocena sztucznej inteligencji na urządzeniu staje się rzeczywistością
Firmom rozwijającym systemy AI Glider oferuje wiele praktycznych korzyści. Jego niewielki rozmiar oznacza, że może działać bezpośrednio na sprzęcie konsumenckim, co rozwiązuje problemy związane z prywatnością podczas wysyłania danych do zewnętrznych interfejsów API. Jego charakter typu open source pozwala organizacjom wdrożyć go we własnej infrastrukturze, dostosowując ją do swoich konkretnych potrzeb.
Model został przeszkolony na podstawie 183 różnych wskaźników oceny w 685 domenach, począwszy od podstawowych czynników, takich jak dokładność i spójność, po bardziej subtelne aspekty, takie jak kreatywność i względy etyczne. To obszerne szkolenie pomaga uogólnić wiele różnych typów zadań związanych z oceną.
„Klienci potrzebują modelu na urządzeniu, ponieważ nie mogą wysyłać swoich danych osobowych do OpenAI ani Anthropic” – wyjaśnił Deshpande. „Chcemy także wykazać, że małe modele językowe mogą być skutecznymi ewaluatorami”.
Publikacja pojawia się w momencie, gdy firmy koncentrują się na zapewnieniu odpowiedzialnego rozwoju sztucznej inteligencji poprzez solidną ocenę i nadzór. Zdolność Glider do dostarczania szczegółowych wyjaśnień podjętych decyzji może pomóc organizacjom lepiej zrozumieć i ulepszyć zachowanie ich systemów sztucznej inteligencji.
Przyszłość oceny sztucznej inteligencji: mniejsza, szybsza, inteligentniejsza
Petronas AI, założona przez ekspertów zajmujących się uczeniem maszynowym meta AI I Laboratoria metarzeczywistościugruntowała swoją pozycję lidera w technologii oceny sztucznej inteligencji. Firma zapewnia platformę do automatycznego testowania i zabezpieczania dużych modeli językowych, a Glider jest jej najnowszym osiągnięciem w zwiększaniu dostępności zaawansowanej oceny sztucznej inteligencji.
Firma planuje dzisiaj opublikować szczegółowe badania techniczne dotyczące szybowca na arxiv.org, które zaprezentują jego osiągi w różnych testach porównawczych. Wstępne testy pokazują, że osiąga najnowocześniejsze wyniki w zakresie szeregu standardowych wskaźników, zapewniając jednocześnie bardziej przejrzyste wyjaśnienia niż istniejące rozwiązania.
„Jesteśmy na początku rundy” – powiedział Kannappan. „Spodziewamy się, że z biegiem czasu coraz więcej deweloperów i firm będzie przesuwać granice w tych obszarach”.
Rozwój Glidera pokazuje, że przyszłość systemów AI niekoniecznie będzie wymagała większych modeli, ale raczej bardziej wyspecjalizowanych i wydajnych modeli zoptymalizowanych pod kątem konkretnych zadań. Jego sukces w dopasowywaniu wydajności większych modeli przy jednoczesnym zapewnieniu lepszej wyjaśnialności może mieć wpływ na przyszłe podejście firm do oceny i rozwoju sztucznej inteligencji.
Source link