Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
badacze Uniwersytet Sztucznej Inteligencji Mohammeda Bin Zayeda (MBZUAI) ogłosiło wydanie LamaV-o1Najnowocześniejszy model sztucznej inteligencji zdolny do obsługi najbardziej złożonych zadań związanych z rozumowaniem w przypadku tekstu i obrazów.
Łącząc najnowocześniejszą pedagogikę programową z zaawansowanymi technologiami dostosowywania Zadanie laseroweLlamaV-o1 wyznacza nowy punkt odniesienia w zakresie rozumowania krok po kroku w multimodalnych systemach AI.
„Rozumowanie to podstawowa umiejętność rozwiązywania złożonych, wieloetapowych problemów, szczególnie w kontekstach wizualnych, gdzie niezbędne jest sekwencyjne, etapowe zrozumienie” – napisali naukowcy w swoim artykule. technologia raportOpublikowano dzisiaj. Zaprojektowany do zadań wnioskowania wymagających dokładności i przejrzystości, model sztucznej inteligencji przewyższa wielu swoich konkurentów w zadaniach od interpretacji wykresów finansowych po diagnozowanie obrazów medycznych.
Wraz z modelem zespół wprowadził również i ten ławka vrcTest porównawczy zaprojektowany do oceny modeli sztucznej inteligencji pod kątem ich zdolności do rozwiązywania problemów krok po kroku. Dzięki ponad 1000 różnorodnych próbek i ponad 4000 etapom wnioskowania VRC-Bench jest już okrzyknięty rewolucją w badaniach nad multimodalną sztuczną inteligencją.
Czym LlamaV-o1 różni się od konkurencji
Tradycyjne modele sztucznej inteligencji często skupiają się na udzieleniu ostatecznej odpowiedzi, ujawniając, w jaki sposób doszli do swoich wniosków. Jednak LlamaV-o1 kładzie nacisk na rozumowanie krok po kroku – umiejętność naśladującą ludzkie rozwiązywanie problemów. Takie podejście pozwala użytkownikom zobaczyć logiczne kroki wykonywane przez model, co czyni go szczególnie cennym w zastosowaniach, w których istotna jest możliwość interpretacji.
Naukowcy przeszkoleni przy użyciu LlamaV-o1 LLaVA-CoT-100kZbiór danych zoptymalizowany pod kątem zadań wnioskowania, a jego wydajność oceniana za pomocą VRC-Bench. Wyniki są imponujące: LlamaV-o1 uzyskał wynik etapu rozumowania na poziomie 68,93, przewyższając dobrze znane modele open source, takie jak LlaVA-CoT (66.21), a nawet niektóre modele o zamkniętym kodzie źródłowym, takie jak chmura 3.5 sonet,
„Wykorzystując efektywność wyszukiwania belek w połączeniu z progresywną strukturą nauczania, proponowany model nabywa umiejętności sekwencyjnie, zaczynając od prostych zadań, takich jak (a) podejście i podsumowywanie pytania, poprzez wyprowadzane podpisy i bardziej złożoną wielozadaniowość”. Udoskonala zaawansowane scenariusze rozumowania, zapewniając zarówno zoptymalizowane wnioskowanie, jak i niezawodne możliwości rozumowania” – wyjaśnili naukowcy.
Systematyczne podejście modelu sprawia, że jest on także szybszy od konkurentów. „LlamaV-o1 zapewnia absolutną przewagę na poziomie 3,8% pod względem średnich wyników w sześciu testach porównawczych, a jednocześnie jest 5 razy szybszy podczas skalowania wnioskowania” – stwierdził zespół w swoim raporcie. Ten rodzaj wydajności jest główną zaletą dla przedsiębiorstw, które chcą wdrażać rozwiązania AI na dużą skalę.
Sztuczna inteligencja dla biznesu: dlaczego logika krok po kroku ma znaczenie
Nacisk LlamaV-o1 na interpretowalność odpowiada krytycznej potrzebie w branżach takich jak finanse, medycyna i edukacja. W przypadku przedsiębiorstw możliwość prześledzenia etapów decyzji AI może budować zaufanie i zapewniać zgodność z przepisami.
Weźmy na przykład obrazowanie medyczne. Radiolodzy korzystający ze sztucznej inteligencji do analizy skanów potrzebują nie tylko diagnozy – muszą wiedzieć, w jaki sposób sztuczna inteligencja doszła do tego wniosku. To właśnie tutaj wyróżnia się LlamaV-o1, zapewniając przejrzystą logikę krok po kroku, którą profesjonaliści mogą przeglądać i weryfikować.
Model wyróżnia się również w obszarach takich jak zrozumienie wykresów i diagramów, które są ważne dla analizy finansowej i podejmowania decyzji. w próbach ławka vrcLlamaV-o1 konsekwentnie przewyższał konkurencję w zadaniach wymagających interpretacji złożonych danych wizualnych.
Ale ten model nie jest przeznaczony tylko do zastosowań wysokiego ryzyka. Jego wszechstronność sprawia, że nadaje się do szerokiego zakresu zadań, od tworzenia treści po agentów konwersacyjnych. Naukowcy specjalnie dostroili LlamaV-o1, aby wyróżniał się w rzeczywistych scenariuszach, wykorzystując wyszukiwanie wiązek do optymalizacji ścieżek logicznych i poprawy wydajności obliczeniowej.
Zadanie laserowe Umożliwia modelowi jednoczesne generowanie wielu ścieżek logicznych i wybór najbardziej logicznej ścieżki. Takie podejście nie tylko zwiększa dokładność, ale także zmniejsza koszty obliczeniowe uruchomienia modelu, co czyni go atrakcyjną opcją dla firm każdej wielkości.
Co VRC-Bench oznacza dla przyszłości sztucznej inteligencji?
wydanie ławka vrc Jest to równie ważne jak model. W przeciwieństwie do tradycyjnych testów porównawczych, które skupiają się wyłącznie na dokładności ostatecznej odpowiedzi, VRC-Bench ocenia jakość poszczególnych etapów rozumowania, zapewniając bardziej zniuansowaną ocenę możliwości modelu AI.
„Większość testów porównawczych koncentruje się przede wszystkim na dokładności zadania końcowego, zaniedbując jakość pośrednich kroków logicznych” – wyjaśnili naukowcy. „(VRC-Bench) przedstawia różnorodny zestaw wyzwań obejmujących osiem różnych kategorii, od złożonej percepcji wizualnej po rozumowanie naukowe, z ponad (w sumie 4000 kroków rozumowania), które wykazują precyzję i interpretację w wielu kategoriach LLM. Kwalifikowane rozumowanie wizualne umożliwia solidne ocena zdolności rozumowania. krok.”
To skupienie się na rozumowaniu krok po kroku jest szczególnie ważne w takich dziedzinach, jak badania naukowe i edukacja, gdzie proces leżący u podstaw rozwiązania może być równie ważny jak samo rozwiązanie. Kładąc nacisk na spójność logiczną, VRC-Bench zachęca do opracowywania modeli, które poradzą sobie ze złożonością i niejednoznacznością zadań w świecie rzeczywistym.
Wydajność LlamaV-o1 na stole VRC mówi wiele o jego potencjale. Średnio model uzyskał 67,33% we wszystkich benchmarkach matematyka I AI2Dtakie jak lepsza wydajność w porównaniu z innymi modelami typu open source KLUCZ-ŁÓŻKO (63,50%). Wyniki te ustanawiają LlamaV-o1 jako lidera w dziedzinie sztucznej inteligencji typu open source, wypełniając lukę dzięki zastrzeżonym modelom, takim jak GPT-4oKto zdobył 71,8%.
Następna granica sztucznej inteligencji: wytłumaczalne rozumowanie multimodalne
Chociaż LlamaV-o1 stanowi znaczący przełom, nie jest on pozbawiony ograniczeń. Podobnie jak wszystkie modele sztucznej inteligencji, jest on ograniczony jakością danych szkoleniowych i może borykać się z wysoce technicznymi lub przeciwstawnymi sygnałami. Naukowcy przestrzegają również przed wykorzystywaniem tego modelu w scenariuszach podejmowania decyzji obarczonych wysokim ryzykiem, takich jak opieka zdrowotna czy prognozy finansowe, gdzie błędy mogą mieć poważne konsekwencje.
Pomimo tych wyzwań projekt LlamaV-o1 podkreśla rosnące znaczenie multimodalnych systemów sztucznej inteligencji, które mogą bezproblemowo integrować tekst, obrazy i inne typy danych. Jego sukces uwydatnia potencjał nauczania programowego i rozumowania krok po kroku w wypełnianiu luki między inteligencją człowieka i maszyny.
W miarę coraz większej integracji systemów sztucznej inteligencji z naszym codziennym życiem zapotrzebowanie na wyjaśnialne modele będzie nadal rosło. LlamaV-o1 to dowód na to, że nie musimy rezygnować z wydajności na rzecz przejrzystości – i że przyszłość sztucznej inteligencji nie polega tylko na dostarczaniu odpowiedzi. Chodzi o pokazanie nam, jak to się tam dostało.
I może to jest prawdziwy kamień milowy: w świecie pełnym rozwiązań typu „czarna skrzynka” LlamaV-o1 otwiera pokrywę.
Source link