Google Veo, poważna zmiana w dziedzinie wideo generowanego przez sztuczną inteligencję, debiutuje na Google I/O 2024

Google poluje na OpenAI Sora z Veo, modelem sztucznej inteligencji, który może tworzyć klipy wideo w rozdzielczości 1080p trwające około minuty, po otrzymaniu monitu tekstowego.

Odsłonięcie we wtorek o godz Konferencja programistów Google I/O 2024Veo może rejestrować różne style wizualne i filmowe, w tym zdjęcia krajobrazów i zdjęć poklatkowych, a także wprowadzać edycje i poprawki do już wygenerowanego materiału.

„Badamy takie funkcje, jak tworzenie scenorysów i generowanie dłuższych scen, aby zobaczyć, co potrafi Veo” – powiedział reporterom Demis Hassabis, szef laboratorium badawczo-rozwojowego AI DeepMind w Google, podczas wirtualnego okrągłego stołu. „Zrobiliśmy niesamowity postęp w dziedzinie wideo”.

Kredyty obrazkowe: Google

Veo opiera się na wstępnych pracach komercyjnych Google w zakresie generowania wideo, podgląd w kwietniu, w którym wykorzystano rodzinę modeli generujących obraz Imagen 2 do tworzenia zapętlonych klipów wideo.

Jednak w przeciwieństwie do narzędzia opartego na Imagen 2, które mogło tworzyć jedynie kilkusekundowe filmy o niskiej rozdzielczości, Veo wydaje się konkurować z wiodącymi obecnie modelami generowania wideo — nie tylko Sorą, ale także modelami start-upów takich jak Pika, Pas startowy I Bezczelne laboratoria.

Podczas odprawy Douglas Eck, który kieruje badaniami w DeepMind w zakresie mediów generatywnych, pokazał mi kilka wybranych przykładów tego, co może zrobić Veo. Szczególnie jedno — widok z lotu ptaka na tętniącą życiem plażę — pokazało przewagę Veo nad konkurencyjnymi modelami wideo, powiedział.

„Okazało się, że szczegółowość wszystkich pływaków na plaży jest trudna zarówno w przypadku modeli do generowania obrazu, jak i wideo, ponieważ jest tak wiele ruchomych postaci” – powiedział. „Jeśli przyjrzysz się uważnie, surfowanie wygląda całkiem nieźle. Argumentuję, że znaczenie słowa „gwarny” oddaje się w kontekście wszystkich ludzi – tętniącej życiem plaży pełnej plażowiczów.

Widzę
Kredyty obrazkowe: Google

Veo był szkolony na podstawie wielu materiałów filmowych. Tak to ogólnie działa z generatywnymi modelami sztucznej inteligencji: na podstawie przykładów pewnej formy danych modele wychwytują wzorce zawarte w danych, które umożliwiają im generowanie nowych danych — w przypadku Veo filmów.

Skąd pochodzi materiał do szkolenia Veo? Eck nie powiedziałby dokładnie, ale przyznał, że niektóre mogły pochodzić z serwisu YouTube należącego do Google.

„Modele Google mogą być szkolone w zakresie niektórych treści YouTube, ale zawsze zgodnie z naszą umową z twórcami YouTube” – powiedział.

Część „umowa” może technicznie Mów prawdę. Ale prawdą jest również, że biorąc pod uwagę efekty sieciowe YouTube, twórcy nie mają większego wyboru, jak tylko postępować zgodnie z zasadami Google, jeśli chcą dotrzeć do jak najszerszego grona odbiorców.

Widzę
Kredyty obrazkowe: Google

Ujawnił to kwietniowy raport „The New York Times”. Google rozszerzyło warunki korzystania z usług w zeszłym roku, częściowo po to, aby umożliwić firmie wykorzystanie większej ilości danych do szkolenia modeli sztucznej inteligencji. W starych Warunkach świadczenia nie było jasne, czy Google może wykorzystywać dane YouTube do tworzenia produktów wykraczających poza platformę wideo. Inaczej jest w przypadku nowych warunków, które znacznie luzują stery.

Google nie jest jedynym gigantem technologicznym wykorzystującym ogromne ilości danych użytkowników do szkolenia wewnętrznych modeli. (Widzieć: Meta.) Jednak tym, co z pewnością rozczaruje niektórych twórców, jest upieranie się Ecka, że ​​Google ustanawia w tym przypadku „złoty standard” pod względem etycznym.

„Rozwiązanie tego wyzwania (dane szkoleniowe) zostanie znalezione, gdy wszystkie zainteresowane strony wspólnie ustalą, jakie są kolejne kroki” – powiedział. „Dopóki nie podejmiemy tych kroków z zainteresowanymi stronami – mówimy o przemyśle filmowym, muzycznym, samych artystach – nie będziemy działać szybko”.

Jednak Google udostępnił już Veo wybranym twórcom, w tym Donaldowi Gloverowi (znanemu również jako Childish Gambino) i jego agencji kreatywnej Gilga. (Podobnie jak OpenAI z SorąGoogle pozycjonuje Veo jako narzędzie dla kreacji.)

Eck zauważył, że Google udostępnia narzędzia umożliwiające webmasterom zapobieganie pobieraniu przez boty firmy danych szkoleniowych z ich witryn internetowych. Ustawienia te nie dotyczą jednak YouTube. I Google, w przeciwieństwie do Niektóre z jego rywalenie oferuje mechanizmu umożliwiającego twórcom usuwanie ich pracy z zestawów danych szkoleniowych po skrobaniu.

Zapytałem Ecka również o niedomykalność, która w kontekście generatywnej sztucznej inteligencji odnosi się do sytuacji, w której model generuje kopię lustrzaną przykładu szkoleniowego. Stwierdzono, że narzędzia takie jak Midjourney wypluwają dokładne fotosy z filmów takich jak „Diuna”, „Avengers” i „Gwiezdne wojny” zapewniły znacznik czasu, tworząc potencjalne legalne pole minowe dla użytkowników. Według doniesień OpenAI posunął się nawet do blokowania znaków towarowych i nazw twórców w monitach dla Sory, aby spróbował uchylić się od wyzwań związanych z prawami autorskimi.

Jakie więc kroki podjął Google, aby zmniejszyć ryzyko niedomykalności za pomocą Veo? Eck nie miał odpowiedzi, poza tym, że stwierdził, że zespół badawczy wdrożył filtry pod kątem treści zawierających przemoc i wulgaryzmy (tzw żadnego porno) i korzysta z DeepMind Technologia SynthID aby oznaczyć filmy z Veo jako wygenerowane przez sztuczną inteligencję.

Widzę
Kredyty obrazkowe: Google

„Zamierzamy – w przypadku czegoś tak dużego jak model Veo – stopniowo udostępniać go małej grupie interesariuszy, z którymi będziemy mogli ściśle współpracować, aby zrozumieć implikacje modelu, a dopiero potem rozpowszechnić go większej grupie” – powiedział.

Eck podzielił się więcej informacjami na temat szczegółów technicznych modelu.

Eck opisał Veo jako „dość kontrolowalny” w tym sensie, że model dość dobrze rozumie ruchy kamery i efekty wizualne na podstawie podpowiedzi (pomyśl o deskryptorach takich jak „przesuwanie”, „zoom” i „eksplozja”). I podobnie jak Sora Veo ma pewne pojęcie o fizyce — takich jak dynamika płynów i grawitacja — co przyczynia się do realizmu generowanych przez nią filmów.

Veo obsługuje także maskowaną edycję zmian w określonych obszarach wideo i może generować filmy ze nieruchomego obrazu, a la modele generatywne, takie jak Stabilne wideo AI. Być może najbardziej intrygujące, biorąc pod uwagę sekwencję podpowiedzi, które razem opowiadają historię, Veo może generować dłuższe filmy — filmy trwające dłużej niż minutę.

Widzę
Kredyty obrazkowe: Google

Nie oznacza to jednak, że Veo jest doskonały. Odzwierciedlając ograniczenia dzisiejszej generatywnej sztucznej inteligencji, obiekty w filmach Veo znikają i pojawiają się ponownie bez większego wyjaśnienia i spójności. A Veo często myli się w fizyce – na przykład samochody w niewytłumaczalny i niemożliwy sposób cofają się za grosze.

Dlatego Veo pozostanie na liście oczekujących Laboratoria Googleportal firmowy dotyczący technologii eksperymentalnych, na najbliższą przyszłość, w nowym interfejsie do tworzenia i edycji generatywnego wideo AI o nazwie VideoFX. W miarę udoskonalania Google stara się przybliżyć niektóre możliwości modelu Shorty w YouTube i inne produkty.

„To praca w toku, bardzo eksperymentalna… dużo więcej pozostaje do zrobienia niż tutaj” – powiedział Eck. „Ale myślę, że to rodzaj surowca do zrobienia czegoś naprawdę wspaniałego w przestrzeni filmowej”.

Uruchamiamy newsletter AI! Zapisać się Tutaj aby zacząć otrzymywać je w swoich skrzynkach odbiorczych od 5 czerwca.

Przeczytaj więcej o Google I/O 2024 w serwisie TechCrunch

źródło