Strona główna Technologie Google Gemini AI łamie zasady przetwarzania wizualnego – oto, co to oznacza...

Technologie

Google Gemini AI łamie zasady przetwarzania wizualnego – oto, co to oznacza dla Ciebie

Przez

15 stycznia 2025

Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej

Google’a bliźnięta aj po cichu zmienił krajobraz sztucznej inteligencji, osiągając kamień milowy, o którym nikt nie myślał, że jest możliwy: jednoczesne przetwarzanie wielu strumieni wizualnych w czasie rzeczywistym.

To przełomowe rozwiązanie – które umożliwia Gemini nie tylko oglądanie strumieni wideo na żywo, ale także jednoczesną analizę nieruchomych obrazów – nie zostało zaprezentowane na głównych platformach Google. Zamiast tego wyłonił się z eksperymentalnej aplikacji o nazwie „”.Dowolny Czat,

Ten nieoczekiwany skok uwydatnia niewykorzystany potencjał Bliźnięta VaastuPrzesuwanie granic możliwości sztucznej inteligencji w zakresie obsługi złożonych, multimodalnych interakcji. Przez lata platformy AI ograniczały się do zarządzania strumieniami wideo na żywo lub zdjęciami, ale nigdy obydwoma jednocześnie. Dzięki AnyChat ta bariera została zdecydowanie przełamana.

„Nawet usługa płatności Gemini jeszcze tego nie potrafi” – powiedział Ahsen Khaliq, dyrektor ds. uczenia maszynowego (ML) w Gradio i twórca AnyChat, powiedział w ekskluzywnym wywiadzie dla VentureBeat. „Teraz możesz prowadzić prawdziwe rozmowy ze sztuczną inteligencją, która przetwarza zarówno Twój obraz wideo na żywo, jak i udostępniane przez Ciebie obrazy”.

Członek zespołu Gradio demonstruje nową zdolność Gemini AI do przetwarzania nieruchomych obrazów, a także wideo w czasie rzeczywistym podczas sesji czatu głosowego, demonstrując potencjał wielostrumieniowego przetwarzania wizualnego w sztucznej inteligencji. (Źródło: x.com/ @freddy_alfonso_,

Jak Google Gemini po cichu redefiniuje wizję sztucznej inteligencji

Osiągnięcie technologiczne stojące za możliwością obsługi wielu strumieni przez Gemini polega na jego zaawansowaniu architektura neuronowa – Infrastruktura używana przez AnyChat do wydajnego przetwarzania wielu danych wizualnych bez pogarszania wydajności. Ta możliwość już istnieje API GeminiNie jest ona jednak udostępniana w oficjalnej aplikacji Google dla użytkowników końcowych.

Z kolei wymagania obliczeniowe wielu platform AI, w tym ChatGPT, ograniczają je do przetwarzania jednostrumieniowego. Na przykład ChatGPT obecnie wyłącza transmisję strumieniową wideo na żywo po przesłaniu obrazu. Nawet obsługa strumienia wideo może obciążać zasoby, nie mówiąc już o połączeniu tego z analizą nieruchomego obrazu.

Potencjalne zastosowania tego przełomu są zarówno rewolucyjne, jak i natychmiastowe. Uczniowie mogą teraz skierować aparat na problem z rachunkiem różniczkowym, pokazując podręcznik Gemini w celu uzyskania wskazówek krok po kroku. Artyści mogą udostępniać obrazy referencyjne oraz prace w toku, otrzymując w czasie rzeczywistym szczegółowe informacje na temat kompozycji i techniki.

Interfejs Gemini Chat, eksperymentalnej platformy, która wykorzystuje sztuczną inteligencję Gemini firmy Google do przesyłania strumieniowego dźwięku w czasie rzeczywistym, wideo i jednoczesnego przetwarzania obrazu, demonstrując jej potencjał w zaawansowanych zastosowaniach sztucznej inteligencji. (Źródło: Przytulanie twarzy/Gradio)

Technologia stojąca za sukcesem wielostrumieniowej sztucznej inteligencji firmy Gemini

Tym, co czyni osiągnięcie AnyChat niezwykłym, jest nie tylko sama technologia, ale także sposób, w jaki pokonuje ona ograniczenia oficjalne wdrożenie mithunaTen sukces był możliwy dzięki specjalnym korzyściom Google API GeminiUmożliwia AnyChat dostęp do funkcji, których nie ma na platformie Google.

Korzystając z tych rozszerzonych uprawnień, AnyChat optymalizuje mechanizm uwagi Gemini w celu jednoczesnego śledzenia i analizowania wielu sygnałów wizualnych – a wszystko to przy zachowaniu spójności rozmowy. Programiści mogą łatwo odtworzyć tę możliwość za pomocą kilku wierszy kodu, co zademonstrowano za pomocą AnyChat RobićPlatforma typu open source do budowania interfejsów ML.

Na przykład programiści mogą uruchomić własną platformę czatów wideo opartą na Gemini z obsługą przesyłania obrazów, korzystając z następującego fragmentu kodu:

Prosty fragment kodu Gradio umożliwia programistom tworzenie interfejsów opartych na Gemini, które obsługują jednoczesne przesyłanie strumieniowe wideo i przesyłanie obrazów, prezentując zasięg zaawansowanych narzędzi AI.
(Źródło: Przytulanie twarzy/Gradio)

Ta prostota podkreśla, że AnyChat to nie tylko prezentacja potencjału Gemini, ale także zestaw narzędzi dla programistów tworzących niestandardowe aplikacje AI obsługujące wizję.

Tym, co czyni osiągnięcie AnyChat niezwykłym, jest nie tylko sama technologia, ale także sposób, w jaki przekracza ona granice. oficjalne wdrożenie mithunaTen przełom był możliwy dzięki specjalnemu dodatkowi od zespołu Google Gemini, który umożliwił AnyChat dostęp do funkcji, których nie ma na platformie Google.

„Funkcja wideo w czasie rzeczywistym Studio sztucznej inteligencji Google „Nie obsługuje obrazów przesyłanych podczas przesyłania strumieniowego” – Khaliq powiedział VentureBeat. „Żadna inna platforma nie wdrożyła obecnie tego rodzaju jednoczesnego przetwarzania”.

Eksperymentalna aplikacja, która ujawniła ukryte możliwości Bliźniąt

Sukces AnyChat nie był zwykłym przypadkiem. Twórcy platformy ściśle współpracowali z architekturą techniczną Gemini, aby rozszerzyć jej granice. W ten sposób ujawnili stronę Bliźniąt, której nie odkryły jeszcze nawet oficjalne narzędzia Google.

To eksperymentalne podejście umożliwiło AnyChat obsługę jednoczesnych strumieni wideo na żywo i nieruchomych obrazów, zasadniczo przełamując „barierę pojedynczego strumienia”. Rezultatem jest platforma, która wydaje się bardziej dynamiczna, intuicyjna i zdolna do radzenia sobie z przypadkami użycia w świecie rzeczywistym skuteczniej niż jej konkurenci.

Dlaczego jednoczesne przetwarzanie wizualne zmienia zasady gry?

Konsekwencje nowych możliwości Gemini wykraczają daleko poza narzędzia kreatywne i przypadkowe interakcje ze sztuczną inteligencją. Wyobraź sobie lekarza, który jednocześnie pokazuje sztuczną inteligencję zarówno objawy pacjenta na żywo, jak i historyczne skany diagnostyczne. Inżynierowie mogą w czasie rzeczywistym porównywać wydajność sprzętu z planami technicznymi i otrzymywać natychmiastową informację zwrotną. Zespoły kontroli jakości mogą porównać wyniki linii produkcyjnej ze standardami referencyjnymi z niespotykaną dotąd dokładnością i wydajnością.

Efektywność w edukacji ma charakter transformacyjny. Uczniowie mogą używać Gemini w czasie rzeczywistym do analizowania podręczników podczas pracy nad praktycznymi problemami, otrzymując kontekstowe wsparcie, które wypełnia lukę pomiędzy statycznym i dynamicznym środowiskiem uczenia się. Dla artystów i projektantów możliwość jednoczesnego wyświetlania wielu materiałów wizualnych otwiera nowe możliwości kreatywnej współpracy i przekazywania informacji zwrotnych.

Co sukces AnyChat oznacza dla przyszłości innowacji AI

Na razie AnyChat pozostaje eksperymentalną platformą deweloperską, działającą z rozszerzonymi limitami szybkości przyznanymi przez programistów Gemini. Jednak jego sukces pokazuje, że jednoczesna, wielostrumieniowa wizja AI nie jest już odległą aspiracją – to aktualna rzeczywistość, gotowa do masowego przyjęcia.

Pojawienie się AnyChat rodzi prowokacyjne pytania. Dlaczego ta funkcja nie jest uwzględniona w oficjalnym wdrożeniu Gemini? Czy to przeoczenie, świadomy wybór alokacji zasobów, czy może znak, że mniejsi, bardziej zwinni programiści napędzają kolejną falę innowacji?

W miarę nasilania się wyścigu sztucznej inteligencji lekcja AnyChat jest jasna: najważniejsze postępy nie zawsze pochodzą z ogromnych laboratoriów badawczych gigantów technologicznych. Zamiast tego mogą powstać od niezależnych programistów, którzy widzą potencjał w istniejących technologiach – i mają odwagę je realizować.

Dzięki udowodnionej zdolności przełomowej architektury Gemini do przetwarzania wielostrumieniowego rozpoczyna się nowa era aplikacji AI. Nie wiadomo, czy Google uwzględni tę funkcję na swojej oficjalnej platformie. Jedno jest jednak jasne: rozbieżność między tym, co potrafi sztuczna inteligencja, a tym, co robi oficjalnie, stała się bardziej interesująca.

Codzienne wglądy w biznesowe przypadki użycia z VB Daily

Jeśli chcesz zaimponować swojemu szefowi, VB Daily jest dla Ciebie. Dajemy Ci wgląd w to, co firmy robią z generyczną sztuczną inteligencją, od zmian regulacyjnych po praktyczne wdrożenie, dzięki czemu możesz dzielić się spostrzeżeniami w celu uzyskania maksymalnego zwrotu z inwestycji.

Przeczytaj naszą politykę prywatności

Dziękujemy za subskrypcję. Więcej biuletynów VB znajdziesz tutaj.

Wystąpił błąd.

Source link

Google Gemini AI łamie zasady przetwarzania wizualnego – oto, co to oznacza dla Ciebie

Jak Google Gemini po cichu redefiniuje wizję sztucznej inteligencji

Technologia stojąca za sukcesem wielostrumieniowej sztucznej inteligencji firmy Gemini

Eksperymentalna aplikacja, która ujawniła ukryte możliwości Bliźniąt

Dlaczego jednoczesne przetwarzanie wizualne zmienia zasady gry?

Co sukces AnyChat oznacza dla przyszłości innowacji AI

Najświeższe wiadomości

Niewidziany film Williama Żabki rodzi zaskakujące pytania, które dzieci zadają na...

Dlaczego David Schwimmer nadal odczuwa ból po swoim występie jako gospodarz...

Dlaczego uwolnienie poszukiwanego przez Włochy Irańczyka jest zwycięstwem Teheranu i ciosem...

Chcę, żeby Apple zrobił te rzeczy za pomocą aparatu w iPhonie...

Christina Haack „właśnie zwymiotowała” po rozwodzie z Joshem Hallem

Transmisja na żywo meczu Brooklyn Nets – Los Angeles Clippers 2025:...

Kategorie