Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


badacze Uniwersytet Sztucznej Inteligencji Mohammeda Bin Zayeda (MBZUAI) ogłosiło wydanie LamaV-o1Najnowocześniejszy model sztucznej inteligencji zdolny do obsługi najbardziej złożonych zadań związanych z rozumowaniem w przypadku tekstu i obrazów.

Łącząc najnowocześniejszą pedagogikę programową z zaawansowanymi technologiami dostosowywania Zadanie laseroweLlamaV-o1 wyznacza nowy punkt odniesienia w zakresie rozumowania krok po kroku w multimodalnych systemach AI.

„Rozumowanie to podstawowa umiejętność rozwiązywania złożonych, wieloetapowych problemów, szczególnie w kontekstach wizualnych, gdzie niezbędne jest sekwencyjne, etapowe zrozumienie” – napisali naukowcy w swoim artykule. technologia raportOpublikowano dzisiaj. Zaprojektowany do zadań wnioskowania wymagających dokładności i przejrzystości, model sztucznej inteligencji przewyższa wielu swoich konkurentów w zadaniach od interpretacji wykresów finansowych po diagnozowanie obrazów medycznych.

Wraz z modelem zespół wprowadził również i ten ławka vrcTest porównawczy zaprojektowany do oceny modeli sztucznej inteligencji pod kątem ich zdolności do rozwiązywania problemów krok po kroku. Dzięki ponad 1000 różnorodnych próbek i ponad 4000 etapom wnioskowania VRC-Bench jest już okrzyknięty rewolucją w badaniach nad multimodalną sztuczną inteligencją.

LlamaV-o1 przewyższa konkurencję, taką jak Cloud 3.5 Sonnet i Gemini 1.5 Flash, w identyfikowaniu wzorców i logiki poprzez złożone zadania wizualne, jak pokazano w tym przykładzie z testu porównawczego VRC-Bench. Model dostarcza wyjaśnień krok po kroku prowadzących do prawidłowej odpowiedzi, podczas gdy inne modele nie odpowiadają ustalonym wzorcom. (Źródło: arxiv.org)

Czym LlamaV-o1 różni się od konkurencji

Tradycyjne modele sztucznej inteligencji często skupiają się na udzieleniu ostatecznej odpowiedzi, ujawniając, w jaki sposób doszli do swoich wniosków. Jednak LlamaV-o1 kładzie nacisk na rozumowanie krok po kroku – umiejętność naśladującą ludzkie rozwiązywanie problemów. Takie podejście pozwala użytkownikom zobaczyć logiczne kroki wykonywane przez model, co czyni go szczególnie cennym w zastosowaniach, w których istotna jest możliwość interpretacji.

Naukowcy przeszkoleni przy użyciu LlamaV-o1 LLaVA-CoT-100kZbiór danych zoptymalizowany pod kątem zadań wnioskowania, a jego wydajność oceniana za pomocą VRC-Bench. Wyniki są imponujące: LlamaV-o1 uzyskał wynik etapu rozumowania na poziomie 68,93, przewyższając dobrze znane modele open source, takie jak LlaVA-CoT (66.21), a nawet niektóre modele o zamkniętym kodzie źródłowym, takie jak chmura 3.5 sonet,

„Wykorzystując efektywność wyszukiwania belek w połączeniu z progresywną strukturą nauczania, proponowany model nabywa umiejętności sekwencyjnie, zaczynając od prostych zadań, takich jak (a) podejście i podsumowywanie pytania, poprzez wyprowadzane podpisy i bardziej złożoną wielozadaniowość”. Udoskonala zaawansowane scenariusze rozumowania, zapewniając zarówno zoptymalizowane wnioskowanie, jak i niezawodne możliwości rozumowania” – wyjaśnili naukowcy.

Systematyczne podejście modelu sprawia, że ​​jest on także szybszy od konkurentów. „LlamaV-o1 zapewnia absolutną przewagę na poziomie 3,8% pod względem średnich wyników w sześciu testach porównawczych, a jednocześnie jest 5 razy szybszy podczas skalowania wnioskowania” – stwierdził zespół w swoim raporcie. Ten rodzaj wydajności jest główną zaletą dla przedsiębiorstw, które chcą wdrażać rozwiązania AI na dużą skalę.

Sztuczna inteligencja dla biznesu: dlaczego logika krok po kroku ma znaczenie

Nacisk LlamaV-o1 na interpretowalność odpowiada krytycznej potrzebie w branżach takich jak finanse, medycyna i edukacja. W przypadku przedsiębiorstw możliwość prześledzenia etapów decyzji AI może budować zaufanie i zapewniać zgodność z przepisami.

Weźmy na przykład obrazowanie medyczne. Radiolodzy korzystający ze sztucznej inteligencji do analizy skanów potrzebują nie tylko diagnozy – muszą wiedzieć, w jaki sposób sztuczna inteligencja doszła do tego wniosku. To właśnie tutaj wyróżnia się LlamaV-o1, zapewniając przejrzystą logikę krok po kroku, którą profesjonaliści mogą przeglądać i weryfikować.

Model wyróżnia się również w obszarach takich jak zrozumienie wykresów i diagramów, które są ważne dla analizy finansowej i podejmowania decyzji. w próbach ławka vrcLlamaV-o1 konsekwentnie przewyższał konkurencję w zadaniach wymagających interpretacji złożonych danych wizualnych.

Ale ten model nie jest przeznaczony tylko do zastosowań wysokiego ryzyka. Jego wszechstronność sprawia, że ​​nadaje się do szerokiego zakresu zadań, od tworzenia treści po agentów konwersacyjnych. Naukowcy specjalnie dostroili LlamaV-o1, aby wyróżniał się w rzeczywistych scenariuszach, wykorzystując wyszukiwanie wiązek do optymalizacji ścieżek logicznych i poprawy wydajności obliczeniowej.

Zadanie laserowe Umożliwia modelowi jednoczesne generowanie wielu ścieżek logicznych i wybór najbardziej logicznej ścieżki. Takie podejście nie tylko zwiększa dokładność, ale także zmniejsza koszty obliczeniowe uruchomienia modelu, co czyni go atrakcyjną opcją dla firm każdej wielkości.

LlamaV-o1 doskonale radzi sobie z różnorodnymi zadaniami rozumowania, w tym przetwarzaniem wizualnym, analizą naukową i obrazowaniem medycznym, jak pokazano w tym przykładzie z testu porównawczego VRC-Bench. Wyjaśnienia krok po kroku zapewniają możliwe do zinterpretowania i dokładne wyniki, przewyższając konkurencję w zadaniach takich jak zrozumienie wykresów, analiza kontekstu kulturowego i złożona percepcja wizualna. (Źródło: arxiv.org)

Co VRC-Bench oznacza dla przyszłości sztucznej inteligencji?

wydanie ławka vrc Jest to równie ważne jak model. W przeciwieństwie do tradycyjnych testów porównawczych, które skupiają się wyłącznie na dokładności ostatecznej odpowiedzi, VRC-Bench ocenia jakość poszczególnych etapów rozumowania, zapewniając bardziej zniuansowaną ocenę możliwości modelu AI.

„Większość testów porównawczych koncentruje się przede wszystkim na dokładności zadania końcowego, zaniedbując jakość pośrednich kroków logicznych” – wyjaśnili naukowcy. „(VRC-Bench) przedstawia różnorodny zestaw wyzwań obejmujących osiem różnych kategorii, od złożonej percepcji wizualnej po rozumowanie naukowe, z ponad (w sumie 4000 kroków rozumowania), które wykazują precyzję i interpretację w wielu kategoriach LLM. Kwalifikowane rozumowanie wizualne umożliwia solidne ocena zdolności rozumowania. krok.”

To skupienie się na rozumowaniu krok po kroku jest szczególnie ważne w takich dziedzinach, jak badania naukowe i edukacja, gdzie proces leżący u podstaw rozwiązania może być równie ważny jak samo rozwiązanie. Kładąc nacisk na spójność logiczną, VRC-Bench zachęca do opracowywania modeli, które poradzą sobie ze złożonością i niejednoznacznością zadań w świecie rzeczywistym.

Wydajność LlamaV-o1 na stole VRC mówi wiele o jego potencjale. Średnio model uzyskał 67,33% we wszystkich benchmarkach matematyka I AI2Dtakie jak lepsza wydajność w porównaniu z innymi modelami typu open source KLUCZ-ŁÓŻKO (63,50%). Wyniki te ustanawiają LlamaV-o1 jako lidera w dziedzinie sztucznej inteligencji typu open source, wypełniając lukę dzięki zastrzeżonym modelom, takim jak GPT-4oKto zdobył 71,8%.

Następna granica sztucznej inteligencji: wytłumaczalne rozumowanie multimodalne

Chociaż LlamaV-o1 stanowi znaczący przełom, nie jest on pozbawiony ograniczeń. Podobnie jak wszystkie modele sztucznej inteligencji, jest on ograniczony jakością danych szkoleniowych i może borykać się z wysoce technicznymi lub przeciwstawnymi sygnałami. Naukowcy przestrzegają również przed wykorzystywaniem tego modelu w scenariuszach podejmowania decyzji obarczonych wysokim ryzykiem, takich jak opieka zdrowotna czy prognozy finansowe, gdzie błędy mogą mieć poważne konsekwencje.

Pomimo tych wyzwań projekt LlamaV-o1 podkreśla rosnące znaczenie multimodalnych systemów sztucznej inteligencji, które mogą bezproblemowo integrować tekst, obrazy i inne typy danych. Jego sukces uwydatnia potencjał nauczania programowego i rozumowania krok po kroku w wypełnianiu luki między inteligencją człowieka i maszyny.

W miarę coraz większej integracji systemów sztucznej inteligencji z naszym codziennym życiem zapotrzebowanie na wyjaśnialne modele będzie nadal rosło. LlamaV-o1 to dowód na to, że nie musimy rezygnować z wydajności na rzecz przejrzystości – i że przyszłość sztucznej inteligencji nie polega tylko na dostarczaniu odpowiedzi. Chodzi o pokazanie nam, jak to się tam dostało.

I może to jest prawdziwy kamień milowy: w świecie pełnym rozwiązań typu „czarna skrzynka” LlamaV-o1 otwiera pokrywę.


Source link