Project Astra: przyszłość sztucznej inteligencji w Google to szybcy, multimodalni asystenci, tacy jak Gemini Live

„Od dłuższego czasu chodziła mi po głowie ta wizja” – mówi Demis Hassabis, szef Google DeepMind i lider wysiłków Google w zakresie sztucznej inteligencji. Hassabis myślał o sztucznej inteligencji i nad nią pracował od dziesięcioleci, ale cztery lub pięć lat temu coś naprawdę się wykrystalizowało. Uświadomił sobie, że pewnego dnia „będziemy mieli tego uniwersalnego asystenta. Jest multimodalny, masz go cały czas przy sobie.” Nazwij to Gwiezdny Trek Komunikator; nazwij to głosem Jej; nazywaj to jak chcesz. „To właśnie ten pomocnik” – kontynuuje Hassabis – „jest po prostu przydatny. Przyzwyczaisz się, że będziesz tam, kiedy tego potrzebujesz.

Na Google I/O, coroczna konferencja programistów firmyHassabis pokazał bardzo wczesną wersję tego, co, jak ma nadzieję, stanie się tym uniwersalnym asystentem. Google nazywa to Project Astra i jest działającym w czasie rzeczywistym multimodalnym asystentem AI, który widzi świat, wie, jakie są rzeczy i gdzie je zostawiłeś, a także może odpowiedzieć na pytania i pomóc Ci zrobić prawie wszystko. W niesamowicie imponującym filmie demonstracyjnym, który, jak zapewnia Hassabis, nie jest w żaden sposób sfałszowany ani sfałszowany, użytkownik Astry w londyńskim biurze Google prosi system o zidentyfikowanie części głośnika, znalezienie brakujących okularów, sprawdzenie kodu i nie tylko. Wszystko to działa praktycznie w czasie rzeczywistym i w sposób bardzo konwersacyjny.

Astra to tylko jedna z wielu zapowiedzi Gemini na tegorocznych targach I/O. Jest nowy model, o nazwie Gemini 1.5 Flashzaprojektowany tak, aby był szybszy w przypadku typowych zadań, takich jak podsumowywanie i tworzenie napisów. Kolejny nowy model, zwany Veomoże wygenerować wideo z podpowiedzi tekstowej. Gemini Nano, model przeznaczony do lokalnego użytku na urządzeniach takich jak Twój telefon, jest podobno także szybszy niż kiedykolwiek. Okno kontekstowe dla Bliźnięta Proliczba informacji, która odnosi się do ilości informacji, jakie model może uwzględnić w danym zapytaniu, podwaja się do 2 milionów tokenów, a Google twierdzi, że model lepiej niż kiedykolwiek wykonuje instrukcje. Google robi szybkie postępy zarówno w samych modelach, jak i w przedstawianiu ich użytkownikom.

Astra jest z założenia multimodalna — możesz rozmawiać, pisać, rysować, fotografować i wideo, aby z nią rozmawiać.
Obraz: Google

W przyszłości, mówi Hassabis, historia sztucznej inteligencji będzie mniej skupiać się na samych modelach, a bardziej na tym, co mogą dla ciebie zrobić. Ta historia dotyczy agentów: botów, które nie tylko z Tobą rozmawiają, ale faktycznie wykonują różne zadania w Twoim imieniu. „Nasza historia agentów jest dłuższa niż nasza uogólniona praca nad modelami” – mówi, wskazując na system AlphaGo do gier sprzed prawie dziesięciu lat. Wyobraża sobie, że niektórzy z tych agentów będą niezwykle prostymi narzędziami do wykonywania zadań, podczas gdy inni będą raczej współpracownikami i towarzyszami. „Myślę, że w pewnym momencie może to zależeć nawet od osobistych preferencji” – mówi – „i zrozumienia kontekstu”.

Hassabis twierdzi, że Astra jest znacznie bliższa temu, jak powinien działać prawdziwy asystent AI działający w czasie rzeczywistym, niż poprzednie produkty. Kiedy Gemini 1.5 Pro, najnowsza wersja głównego nurtu wielkojęzycznego modelu Google, była gotowa, Hassabis twierdzi, że wiedział, że leżąca u jej podstaw technologia jest wystarczająco dobra, aby coś takiego jak Astra zaczęło dobrze działać. Ale model to tylko część produktu. „Mieliśmy już elementy tego rozwiązania sześć miesięcy temu” – mówi – „ale jednym z problemów była szybkość i opóźnienia. Bez tego użyteczność nie byłaby zadowalająca.” Dlatego od sześciu miesięcy przyspieszenie systemu jest jednym z najważniejszych zadań zespołu. Oznaczało to ulepszenie modelu, ale także optymalizację pozostałej infrastruktury, aby działała dobrze i na dużą skalę. Na szczęście Hassabis śmieje się: „Google robi to bardzo dobrze!”

Wiele ogłoszeń Google dotyczących sztucznej inteligencji na I/O dotyczy zapewnienia większej liczby łatwiejszych sposobów korzystania z Gemini. Nowy produkt o nazwie Gemini Live to asystent głosowy, który umożliwia łatwe prowadzenie rozmów z modelką, przerywanie ich, gdy rozmowa staje się nudna lub przywoływanie wcześniejszych części rozmowy. Nowa funkcja w Google Lens umożliwia przeszukiwanie Internetu poprzez nagrywanie filmów i opowiadanie o nich. Wiele z tych funkcji umożliwia duże okno kontekstowe Gemini, co oznacza, że ​​może on uzyskać dostęp do ogromnej ilości informacji jednocześnie, a Hassabis twierdzi, że niezwykle ważne jest, aby interakcja z asystentem wydawała się normalna i naturalna.

Gemini 1.5 Flash istnieje przede wszystkim po to, aby przyspieszyć działanie asystentów AI.
Obraz: Google

Swoją drogą, kto zgadza się z tą oceną? OpenAI, o którym już od jakiegoś czasu mówi się o agentach AI. A właściwie firma zademonstrował produkt uderzająco podobny do Gemini Live zaledwie godzinę po rozmowie z Hassabisem. Obie firmy coraz częściej walczą o to samo terytorium i wydaje się, że podzielają wizję tego, jak sztuczna inteligencja może zmienić Twoje życie i jak możesz z niej korzystać z czasem.

Jak dokładnie będą działać ci asystenci i jak będziesz z nich korzystać? Nikt nie jest tego pewien, nawet Hassabis. Google skupia się obecnie na planowaniu podróży — stworzyło nowe narzędzie umożliwiające wykorzystanie Gemini do tworzenia planu podróży na wakacje, który można następnie edytować wspólnie z asystentem. Docelowo będzie znacznie więcej takich funkcji. Hassabis twierdzi, że jest optymistycznie nastawiony do telefonów i okularów jako kluczowych urządzeń dla tych agentów, ale twierdzi też, że „prawdopodobnie jest miejsce na kilka ekscytujących urządzeń”. Astra jest wciąż we wczesnej fazie prototypu i stanowi tylko jeden ze sposobów interakcji z systemem takim jak Gemini. Zespół DeepMind wciąż bada, jak najlepiej połączyć modele multimodalne i jak zrównoważyć bardzo duże modele ogólne z mniejszymi i bardziej szczegółowymi.

Nadal żyjemy w erze sztucznej inteligencji „prędkości i posuwy”, w której każdy model przyrostowy ma znaczenie i mamy obsesję na punkcie rozmiarów parametrów. Ale całkiem szybko, przynajmniej według Hassabisa, zaczniemy zadawać różne pytania na temat sztucznej inteligencji. Lepsze pytania. Pytania dotyczące tego, co ci asystenci mogą zrobić, jak to robią i jak mogą poprawić nasze życie. Technologia jest daleka od doskonałości, ale naprawdę szybko się poprawia.

źródło