Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Ponieważ przedsiębiorstwa na całym świecie podwajają swoje projekty w zakresie sztucznej inteligencji, dostępność wysokiej jakości danych szkoleniowych stała się główną przeszkodą. Gdy Sieć publiczna jest w dużej mierze ukończona Jeśli chodzi o źródła danych, główni gracze, tacy jak OpenAI i Google, zapewniają wyłączne partnerstwa w celu rozszerzania swoich zastrzeżonych zbiorów danych, ograniczając w ten sposób dostęp dla innych.
Aby zaradzić temu rosnącemu problemowi, siły sprzedaży Duży krok został zrobiony w dziedzinie wizualnych danych treningowych. Firma niedawno wprowadziła Provision, nową platformę, która programowo generuje wizualne dane instruktażowe. Te zbiory danych były systematycznie syntetyzowane, aby umożliwić szkolenie wysokowydajnych multimodalnych modeli językowych (MLM), które mogą odpowiadać na pytania dotyczące obrazów.
Firma wypuściła już zbiór danych PROVISION-10M wykorzystujący to podejście i wykorzystuje go do zwiększenia wydajności i dokładności różnych multimodalnych modeli sztucznej inteligencji.
Dla specjalistów zajmujących się danymi ramy te stanowią znaczący postęp. Programowo generując wysokiej jakości dane instrukcji wizualnych, ProVision zmniejsza zależność od ograniczonych lub niespójnie oznakowanych zestawów danych, co jest częstym wyzwaniem w szkoleniu systemów multimodalnych.
Co więcej, zdolność do systematycznej syntezy zbiorów danych zapewnia lepszą kontrolę, skalowalność i zrównoważony rozwój, umożliwiając szybsze cykle iteracji i zmniejszając koszty pozyskiwania danych specyficznych dla domeny. Prace uzupełniają trwające badania w dziedzinie generowania danych syntetycznych i rozpoczęły się zaledwie dzień po wypuszczeniu przez firmę Nvidia Cosmos, zestawu światowych modeli, których celem jest symulowanie fizyki na podstawie kombinacji danych wejściowych, takich jak tekst, obrazy i przygotowanie wideo . Do fizycznego treningu AI.
Dane instrukcji wizualnych: kluczowy element multimodalnej sztucznej inteligencji
Obecnie zestawy danych instrukcji stanowią podstawę wstępnego szkolenia lub dostrajania sztucznej inteligencji. Te specjalne zbiory danych pomagają modelom postępować zgodnie z określonymi instrukcjami lub pytaniami i skutecznie na nie odpowiadać. W przypadku multimodalnej sztucznej inteligencji modele uzyskują możliwość analizowania treści, takich jak obrazy, po nauczeniu się z różnych punktów danych wraz z parami pytanie-odpowiedź – lub danymi instrukcji wizualnych.
Rzecz w tym, że budowanie tych zbiorów danych instrukcji wizualnych jest dużym problemem. Jeśli przedsiębiorstwo ręcznie tworzy dane dla każdego obrazu szkoleniowego, marnuje dużo czasu i zasobów ludzkich na realizację projektu. Z drugiej strony, jeśli zdecyduje się użyć do tego zadania zastrzeżonych modeli językowych, będzie musiał poradzić sobie z wyższymi kosztami obliczeniowymi i ryzykiem halucynacji, w przypadku których jakość i dokładność par pytanie-odpowiedź może nie być wystarczająco dobra.
Co więcej, korzystanie z zastrzeżonych modeli jest również mechanizmem czarnej skrzynki, ponieważ utrudnia wyjaśnienie procesu wytwarzania danych oraz precyzyjną kontrolę lub optymalizację wyników.
Wprowadź aprowizację Salesforce
Aby wypełnić te luki, zespół badawczy Salesforce zajmujący się sztuczną inteligencją opracował Provision – platformę, która wykorzystuje wykresy scen z programami napisanymi przez ludzi do systematycznej syntezy danych z instrukcjami zorientowanymi na wizję.
Zasadniczo wykres sceny można opisać jako ustrukturyzowaną reprezentację semantyki obrazu, w której obiekty w treści są reprezentowane jako węzły. Atrybuty każdego obiektu – takie jak kolor czy kształt – są bezpośrednio przypisane do odpowiadających im węzłów, natomiast relacje pomiędzy tymi obiektami są reprezentowane jako skierowane krawędzie łączące odpowiednie węzły. Reprezentacje te można uzyskać z ręcznie opatrzonych adnotacjami zbiorów danych, takich jak genom wizualny, lub można je wygenerować za pomocą potoku generowania grafów wizualnych, który opiera się na różnych najnowocześniejszych modelach wizji obejmujących różne aspekty przekształcania obiektu w obiekt. semantyka obrazu. Łączy modele. Wykrywanie cech w celu oszacowania głębokości.
Gdy wykresy wizualne są już gotowe, stanowią one podstawę programów napisanych przy użyciu języka Python i szablonów tekstowych, które służą jako kompletne generatory danych zdolne do tworzenia par pytanie-odpowiedź na potrzeby potoków szkoleniowych AI.
„Każdy generator (danych) korzysta z setek predefiniowanych szablonów, systematycznie integrując te adnotacje w celu uzyskania różnorodnych danych instrukcji. „Te generatory zostały zaprojektowane do porównywania, wyszukiwania i wnioskowania o podstawowych koncepcjach wizualnych obiektów, atrybutów i relacji w oparciu o szczegółowe informacje zakodowane na każdym wykresie wizualnym” – twierdzą badacze stojący za tym frameworkiem w napisanym papier,
Zbiór danych Provision-10M do szkolenia AI
W swojej pracy Salesforce wykorzystał obie metody do ustalenia wykresów scen, zasilając 24 generatory danych z pojedynczym obrazem i 14 generatorów z wieloma obrazami – rozszerzanie ręcznie opatrzonych adnotacjami wykresów scen i generowanie od podstaw.
„Dzięki tym generatorom danych możemy automatycznie syntetyzować pytania i odpowiedzi na podstawie wizualnego wykresu obrazu. Na przykład, biorąc pod uwagę obraz ruchliwej drogi, wizja może generować pytania typu: „Jaki jest związek między pieszym a samochodem?” lub „Który obiekt jest bliżej czerwonego budynku, samochodu czy pieszego?” Główni badacze Jiu Zhang i Le Xue zauważyli w: wpis na blogu,
Pierwsze podejście pomogło im wygenerować 1,5 miliona punktów danych instrukcji obejmujących pojedynczy obraz i 4,2 miliona punktów danych instrukcji obejmujących wiele obrazów poprzez uzupełnienie wykresów wizualnych programu Visual Genome o adnotacje dotyczące głębokości i segmentacji z generatorów danych DepthAnything v2 i SAM-2. Tymczasem inni, wykorzystując 120 000 obrazów o wysokiej rozdzielczości ze zbioru danych Datacomp i modeli, takich jak Yolo-World, COCA, LAVA-1.5 i Osprey, wygenerowali 2,3 miliona punktów danych instrukcji zawierających pojedynczy obraz i 4,2 miliona punktów danych instrukcji obejmujących wiele obrazów .
Ogólnie rzecz biorąc, cztery partycje tworzą ProVision-10M, zbiór danych zawierający ponad 10 milionów unikalnych punktów danych instrukcji. Jest już dostępny przytulanie twarzy I już sztuczna inteligencja okazuje się bardzo skuteczna w szkoleniu potoków.
W szczególności, gdy firma włączyła Provision-10M do wielomodalnych receptur dostrajania AI – LLAVA-1.5 dla danych instrukcji pojedynczego obrazu i Mantis-Siglip-8b dla danych instrukcji wielu obrazów – zaobserwowano średnią wydajność. Lepsze niż modele z dostrajaniem bez udostępniania danych.
„Po zastosowaniu na etapie dostrajania instrukcji nasze dane dotyczące instrukcji pojedynczego obrazu zapewniają do 7% poprawę w przypadku podziału 2D i 8% poprawy w porównaniu z podziałem 3D CVBench, a także 3% wzrost wydajności w QBench2, RealWorldQA i . MMMU. Nasze dane dotyczące instrukcji obejmujących wiele obrazów przyniosły 8% poprawę w Mantis-Eval” – zauważyli naukowcy w artykule.
Dane syntetyczne pozostaną tu na stałe
Chociaż istnieje wiele narzędzi i platform, w tym nowy model Cosmos World Foundation firmy Nvidia, do generowania różnych modalności danych (od obrazów po wideo), które można wykorzystać do multimodalnego szkolenia AI, tylko kilka ma wbudowane instrukcje generowania danych Have zwrócił uwagę na problem. Zbiory danych, które łączą się z tymi danymi.
Salesforce usuwa tę przeszkodę dzięki Provisioningowi, dając przedsiębiorstwom możliwość wyjścia poza ręczne etykietowanie lub czarnoskrzynkowe modele językowe. Podejście do programowego generowania danych instrukcji skutecznie zapewnia interpretowalność i sterowalność procesu produkcyjnego i skali przy jednoczesnym zachowaniu dokładności merytorycznej.
Firma ma nadzieję, że w dłuższej perspektywie badacze będą mogli wykorzystać te prace do ulepszenia procesów generowania wykresów wizualnych i stworzenia większej liczby generatorów danych obejmujących nowe typy danych instrukcji dla wideo.
Source link