Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Przedsiębiorstwa pracują nad holistycznymi agentami AI. Chcą, aby te systemy były w stanie rozumować i obsługiwać różne zadania w różnych domenach, ale często są obciążone złożonym i czasochłonnym procesem oceny wydajności agentów. xToday, lider ekosystemu danych kostki danych ogłoszony Możliwości danych syntetycznych, aby ułatwić programistom.

Według firmy posunięcie to umożliwi programistom generowanie wysokiej jakości sztucznych zbiorów danych w ramach przepływu pracy w celu oceny wydajności systemów agentowych będących w fazie rozwoju. Uwolni to ich od niepotrzebnych rund wizyt u ekspertów merytorycznych i umożliwi agentom szybsze wejście do produkcji.

Czas pokaże, jak faktycznie będzie działać oferowanie syntetycznych danych w przypadku przedsiębiorstw korzystających z platformy Databricks Intelligence, ale firma pod przewodnictwem Ali Ghodsiego twierdzi, że jej wewnętrzne testy wykazały, że przewyższa ona agentów pod wieloma względami. Może znacząco poprawić wydajność.

Gra Databricks do oceny agentów AI

Firma Databricks nabyła MosaicML w zeszłym roku i w pełni zintegrowała technologię i modele firmy ze swoją platformą analizy danych, umożliwiając przedsiębiorstwom wykorzystanie uczenia maszynowego (ML) i analizy danych przy użyciu danych hostowanych w firmowym Lakehouse. Zapewnia wszystko, czego potrzebujesz do tworzenia, wdrażania i wdrażania. i oceniaj generatywne rozwiązania AI.

Część tej pracy polega na pomaganiu zespołom w budowaniu złożonych systemów sztucznej inteligencji, które nie tylko potrafią dokładnie rozumować i reagować, ale także otwierać/zamykać zgłoszenia do pomocy technicznej, odpowiadać na e-maile i dokonywać rezerwacji. Mogą również podejmować takie działania. W tym celu firma zaprezentowała w tym roku zupełnie nowy pakiet możliwości Mosaic AI, w tym obsługę dostrajania modeli podstawowych, katalog narzędzi AI oraz ofertę do tworzenia i oceniania agentów AI – Mosaic AI Agents Framework i agent ocena jest wliczona w cenę.

Dziś firma rozszerza ocenę agentów o nowe API do generowania danych syntetycznych.

Jak dotąd Agent Evaluation zapewnił przedsiębiorstwom dwie kluczowe możliwości. Pierwsza umożliwia użytkownikom i ekspertom merytorycznym (MŚP) ręczne definiowanie zbiorów danych zawierających odpowiednie pytania i odpowiedzi oraz tworzenie swego rodzaju punktu odniesienia do oceny jakości odpowiedzi udzielanych przez agentów AI. Drugi umożliwia MŚP wykorzystanie tych kryteriów do oceny agenta i przekazania informacji zwrotnej (etykiet). Jest wspierany przez sędziów AI, którzy automatycznie rejestrują odpowiedzi i opinie ludzi w tabeli oraz oceniają jakość środka na podstawie takich wskaźników, jak dokładność i szkodliwość.

To podejście działa, ale proces tworzenia zbioru danych ewaluacyjnych zajmuje dużo czasu. Powody są łatwe do wyobrażenia: eksperci dziedzinowi nie zawsze są dostępni; Proces ten jest ręczny i użytkownicy często mogą mieć trudności ze zidentyfikowaniem najistotniejszych pytań i odpowiedzi, aby zapewnić „złote” przykłady udanych interakcji.

W tym miejscu przydaje się interfejs API syntetycznego generowania danych, umożliwiający programistom tworzenie wysokiej jakości zestawów danych ewaluacyjnych do wstępnej oceny w ciągu zaledwie kilku minut. Skraca to pracę MŚP do ostatecznej walidacji i przyspiesza proces iteracyjnego rozwoju, w którym programiści mogą sami odkryć, jak permutacje systemu – dostrajanie modelu, zmiana narzędzi wyszukiwania lub dodawanie – zmieniają jakość.

Firma przeprowadziła wewnętrzne testy, aby sprawdzić, w jaki sposób zbiory danych wygenerowane z interfejsu API mogą pomóc w ocenie i ulepszeniu agentów, i zauważyła, że ​​może to prowadzić do znacznych ulepszeń różnych wskaźników.

„Poprosiliśmy badacza o wykorzystanie danych syntetycznych do oceny i poprawy wydajności agenta, a następnie oceniliśmy otrzymany agent na podstawie danych opracowanych przez ludzi” – powiedział VentureBeat Did, Eric Peter, platforma AI i lider produktu w Databricks. „Wyniki pokazały, że w przypadku różnych wskaźników wydajność agentów znacznie się poprawiła. Na przykład zaobserwowaliśmy około 2-krotny wzrost zdolności agenta do wyszukiwania odpowiednich dokumentów (mierzony przez Recall@10). Dodatkowo zaobserwowaliśmy poprawę ogólnej dokładności odpowiedzi agenta.”

Jak to wygląda inaczej?

Chociaż istnieje wiele narzędzi, które mogą generować syntetyczne zbiory danych do oceny, oferta Databricks Mosaic AI wyróżnia się ścisłą integracją z Agentic Assessment – ​​co oznacza, że ​​programiści korzystający z platformy firmy mogą integrować się ze swoimi przepływami pracy .

Peter powiedział, że tworzenie zbiorów danych za pomocą nowego API to proces czteroetapowy. Programiści muszą po prostu przeanalizować swoje dokumenty (zapisać je jako tabele delta w Lakehouse), przekazać tabele delta do interfejsu API danych syntetycznych, przeprowadzić oceny na podstawie wygenerowanych danych i zobaczyć wyniki jakości.

Z kolei użycie narzędzia zewnętrznego oznaczałoby kilka dodatkowych kroków, w tym uruchomienie wyodrębniania, przekształcania i ładowania (ETL) w celu przeniesienia przeanalizowanych dokumentów do środowiska zewnętrznego, w którym można uruchomić proces generowania syntetycznych danych; platforma; Ocena może być wówczas wykonana dopiero po jej przekształceniu do formatu zaakceptowanego przez osobę oceniającą.

„Wiedzieliśmy, że firmy potrzebują gotowego interfejsu API, który byłby łatwy w użyciu – wystarczy jedna linijka kodu do wygenerowania danych” – wyjaśnił Peter. „Zauważyliśmy również, że wiele rozwiązań dostępnych na rynku oferowało proste podpowiedzi typu open source, które nie dorównywały jakością. Mając to na uwadze, dokonaliśmy znacznych inwestycji w jakość generowanych danych, umożliwiając jednocześnie programistom dostosowanie potoku do ich unikalnych potrzeb przedsiębiorstwa za pomocą interfejsu przypominającego interfejs natychmiastowy. Wreszcie wiedzieliśmy, że większość istniejących ofert należy zaimportować do istniejących przepływów pracy, co spowodowałoby niepotrzebną złożoność procesu. Zamiast tego stworzyliśmy pakiet SDK, który jest ściśle zintegrowany z platformą Databricks Data Intelligence Platform i możliwościami oceny agentów Mosaic AI.

Wiele przedsiębiorstw korzystających z Databricks korzysta już z interfejsu Synthetic Data API w ramach prywatnej wersji zapoznawczej i zgłasza poprawę jakości swoich agentów oraz znaczne skrócenie czasu potrzebnego na wdrożenie ich w środowisku produkcyjnym.

Jednym z takich klientów jest Chris Nishnik, dyrektor ds. sztucznej inteligencji lippertstwierdziło, że ich zespoły były w stanie wykorzystać dane z interfejsu API do poprawy jakości odpowiedzi modeli o 60% w porównaniu z sytuacją sprzed zaangażowania ekspertów.

W przygotowaniu więcej możliwości skoncentrowanych na agentach

W kolejnym kroku firma planuje rozszerzyć ocenę agentów Mosaic AI o funkcje umożliwiające ekspertom dziedzinowym modyfikowanie danych syntetycznych w celu zwiększenia ich dokładności, a także narzędzia do zarządzania ich cyklem życia.

„W naszej wersji zapoznawczej dowiedzieliśmy się, że klienci oczekiwali wielu dodatkowych możliwości” – powiedział Peter. „Po pierwsze chcą interfejsu użytkownika, w którym eksperci z danej dziedziny będą mogli przeglądać i edytować syntetyczne dane oceniające. Po drugie, chcą mieć sposób na kontrolowanie i zarządzanie cyklem życia swoich zestawów ewaluacyjnych, aby śledzić zmiany i udostępniać programistom aktualizacje, począwszy od oceny eksperta domeny, a skończywszy na danych. Aby sprostać tym wyzwaniom, testujemy już z klientami kilka funkcji, które planujemy wprowadzić na początku przyszłego roku”.

Ogólnie rzecz biorąc, oczekuje się, że rozwój ten doprowadzi do przyjęcia oferty Mosaic AI firmy Databrick, jeszcze bardziej wzmacniając pozycję firmy jako dostawcy wszelkich produktów związanych z danymi i sztuczną inteligencją generacji.

Jednak Snowflake również wkracza do tej kategorii i ogłosił serię ogłoszeń dotyczących produktów, w tym modelowe partnerstwo z firmą Anthropic w zakresie produktu Cortex AI, który umożliwia przedsiębiorstwom tworzenie ogólnych aplikacji AI. Na początku tego roku Snowflake nabył także startup Truera zajmujący się obserwacją, aby zapewnić możliwości monitorowania aplikacji AI w Cortex.


Source link