Co musisz wiedzieć
- OpenAI uruchomiło dziś GPT-4o, czyli nowy model sztucznej inteligencji, który może wchodzić w interakcję z użytkownikami za pośrednictwem dźwięku, obrazu i tekstu.
- Wygląda na to, że Google ma licznik GPT-4o gotowy do użycia na konferencji Google I/O 2024, która rozpoczyna się jutro.
- W zwiastunie Google pokazał niewydany dotąd multimodalny interfejs AI i oznajmił, że spodziewa się ogłoszeń związanych ze sztuczną inteligencją, wyszukiwarką Google i nie tylko.
OpenAI pokonało dziś Google, organizując wydarzenie, podczas którego firma wydała plik nowy model AI o nazwie GPT-4o. Moment wydarzenia OpenAI nie był przypadkowy — nastąpił na dzień przed planowanym ogłoszeniem przez Google planów i funkcji związanych ze sztuczną inteligencją na konferencji programistów Google I/O 2024. Wygląda jednak na to, że OpenAI może pozostać liderem multimodalnej sztucznej inteligencji tylko przez jeden dzień. W zwiastunie przesłane do X (dawniej Twitter) przyjrzeliśmy się niewydanemu dotąd interfejsowi sztucznej inteligencji działającemu na telefonie z Androidem.
Główną częścią zwiastuna jest wideo przedstawiające pewien rodzaj multimodalnego interfejsu AI działającego na komputerze telefon z systemem Android. Wizualnie przypomina aplikację Pixel Camera, a wersja demonstracyjna przedstawia osobę zadającą pytania na temat otoczenia. W tym przypadku jest to etap we/wy Google. Po prawidłowym zidentyfikowaniu konfiguracji zdarzenia to narzędzie AI rozpoznało również znak słowny Google I/O i wyjaśniło szczegóły konferencji programistów. Ponieważ jednak jest to wcześniej nagrany film, do wyników należy podchodzić z przymrużeniem oka.
Oprócz filmu Google twierdzi, że podczas konferencji Google I/O 2024 można się spodziewać „najnowszych wiadomości na temat sztucznej inteligencji, wyszukiwania i nie tylko”. Główne przemówienie zaplanowano na godzinę 10:00 czasu pacyficznego i będziemy śledzić cały rozwój sytuacji w naszym bloga na żywo.
Jeszcze jeden dzień do #GoogleIO! Czujemy 🤩. Do zobaczenia jutro, aby uzyskać najnowsze wiadomości na temat sztucznej inteligencji, wyszukiwania i nie tylko. pic.twitter.com/QiS1G8GBf913 maja 2024 r
Gemini pojawił się już jako asystent głosowyoraz jako chatbot, który może przeglądać obrazy, zrzuty ekranu i nie tylko. Jednak nową częścią zwiastuna Google jest to, że interfejs obsługuje teraz funkcję wizyjną jako alternatywę dla wprowadzania głosowego i tekstowego. Patrząc przez kamerę urządzenia, ten interfejs AI może odpowiedzieć na pytania i uzyskać szczegółowe informacje na temat otoczenia. Jest podobny do tego, co Humane AI Pin i Królik R1 próbowałem zrobić z samodzielnymi urządzeniami.
Jednak nadal nie wiemy wielu rzeczy, np. czy ta funkcja będzie wbudowana Bliźnięta lub inna aplikacja. Demo wydaje się na tyle imponujące, że doładowana wersja Gemini może być gotowy na zastąpienie Asystenta Googleale to na razie tylko spekulacje.
Podczas wtorkowego przemówienia uzyskamy większą jasność co do tego, nad czym pracuje Google, ale na razie ten zwiastun wydaje się potwierdzać nadejście konkurenta GPT-4o.