Google przedstawia Veo, generator wideo wysokiej rozdzielczości AI, który może konkurować z Sorą
Powiększać / Zdjęcia pobrane z filmów wygenerowanych przez Google Veo.

Google / Benj Edwards

We wtorek na Google I/O 2024 Google ogłosił Widzęnowy model syntezy wideo AI, który może tworzyć filmy HD z tekstu, obrazu lub podpowiedzi wideo, podobnie jak w OpenAI Sora. Może generować filmy w rozdzielczości 1080p trwające ponad minutę i edytować filmy na podstawie pisemnych instrukcji, ale nie został jeszcze udostępniony do szerokiego użytku.

Według doniesień Veo umożliwia edytowanie istniejących filmów za pomocą poleceń tekstowych, utrzymywanie spójności wizualnej między klatkami i generowanie sekwencji wideo trwających do 60 sekund lub dłużej na podstawie pojedynczego podpowiedzi lub serii podpowiedzi tworzących narrację. Firma twierdzi, że może generować szczegółowe sceny i stosować efekty kinowe, takie jak poklatkowe, ujęcia lotnicze i różne style wizualne

Od premiery OD-E 2 w kwietniu 2022 r. byliśmy świadkami parady nowych modeli syntezy obrazu i syntezy wideo, których celem było umożliwienie każdemu, kto potrafi wpisać pisemny opis, stworzenia szczegółowego obrazu lub filmu. Choć żadna z technologii nie została w pełni udoskonalona, ​​możliwości generatorów obrazów i wideo AI stale rosną.

W lutym opublikowaliśmy zapowiedź Sora z OpenAI generator wideo, który w tamtym czasie wielu uważał za najlepszą syntezę wideo AI, jaką mogła zaoferować branża. Zrobiło to na tyle wrażenie na Tylerze Perrym, że on to zrobił umieścił rozbudowę swojego studia filmowego w oczekiwaniu. Jednak jak dotąd OpenAI nie zapewniło ogólnego dostępu do narzędzia – zamiast tego ograniczyło jego użycie do wybranej grupy testerów.

Teraz na pierwszy rzut oka Google Veo wydaje się być w stanie generować wideo podobnie jak Sora. Sami tego nie próbowaliśmy, więc możemy jedynie zapoznać się z wybranymi filmami demonstracyjnymi dostarczonymi przez firmę na swojej stronie internetowej. Oznacza to, że każdy, kto je przegląda, powinien traktować twierdzenia Google z dużym przymrużeniem oka, bo wyniki generacji mogą nie być typowe.

Przykładowe filmy Veo obejmują kowboja na koniu, ujęcie w przyspieszonym tempie na podmiejskiej ulicy, kebab pieczony na grillu, poklatkowy wstęp ze słonecznikiem i nie tylko. Wyraźnie brakuje szczegółowych przedstawień ludzi, których wygenerowanie w przypadku obrazów i wideo AI bez oczywistych deformacji było w przeszłości trudne.

Google twierdzi, że Veo opiera się na poprzednich modelach generowania wideo firmy, w tym Generative Query Network (GQN), DVD-GAN, Obraz-Wideo, fenakiWALT, VideoPoeta i Lumiere. Aby poprawić jakość i wydajność, dane szkoleniowe Veo zawierają bardziej szczegółowe podpisy wideo i wykorzystują skompresowane „ukryte” reprezentacje wideo. Aby poprawić jakość generowania wideo przez Veo, Google dodał bardziej szczegółowe napisy do filmów używanych do szkolenia Veo, umożliwiając sztucznej inteligencji dokładniejszą interpretację podpowiedzi.

Veo wydaje się godne uwagi także dlatego, że obsługuje polecenia tworzenia filmów: „Po otrzymaniu zarówno polecenia wejściowego wideo, jak i edycji, np. dodania kajaków do zdjęcia lotniczego linii brzegowej, Veo może zastosować to polecenie do początkowego filmu i utworzyć nowy, edytowany film, – twierdzi firma.

Choć na pierwszy rzut oka dema wydają się imponujące (szczególnie w porównaniu z Will Smith je spaghetti), Google przyznaje, że generowanie wideo AI jest trudne. „Utrzymanie spójności wizualnej może być wyzwaniem w przypadku modeli generowania wideo” – pisze firma. „Postacie, obiekty, a nawet całe sceny mogą nieoczekiwanie migotać, przeskakiwać lub zmieniać się między klatkami, zakłócając wrażenia wizualne”.

Google próbował złagodzić te wady za pomocą „najnowocześniejszych ukrytych transformatorów dyfuzyjnych”, co jest w zasadzie bezsensownym gadaniem marketingowym bez szczegółów. Ale firma jest wystarczająco pewna tego modelu współpracował z aktorem Donaldem Gloverem i jego studio Gilga w celu stworzenia filmu demonstracyjnego generowanego przez sztuczną inteligencję, który wkrótce zadebiutuje.

Początkowo Veo będzie dostępne dla wybranych twórców za pośrednictwem WideoFXnowe narzędzie eksperymentalne dostępne w witrynie Google AI Test Kitchen labs.google. Twórcy mogą dołączyć do listy oczekujących na VideoFX, aby potencjalnie uzyskać dostęp do funkcji Veo w nadchodzących tygodniach. Google planuje w przyszłości zintegrować niektóre możliwości Veo z YouTube Shorts i innymi produktami.

Nie ma jeszcze informacji o tym, skąd Google wziął dane szkoleniowe dla Veo (jeśli mielibyśmy zgadywać, prawdopodobnie był w to zaangażowany YouTube). Google twierdzi jednak, że w przypadku Veo przyjmuje „odpowiedzialne” podejście. Według firmy „Filmy tworzone przez Veo są oznaczone znakiem wodnym SynthIDnasze najnowocześniejsze narzędzie do znakowania wodnego i identyfikowania treści generowanych przez sztuczną inteligencję, które przeszło filtry bezpieczeństwa i procesy sprawdzania zapamiętywania, które pomagają ograniczyć ryzyko związane z prywatnością, prawami autorskimi i stronniczością”.

źródło