Google kieruje swoją ofertę do twórców filmowych za pomocą Veo, nowego generatywnego modelu wideo AI

Minęły trzy miesiące, odkąd OpenAI zademonstrowało swoją urzekającą sztuczną inteligencję przekształcającą tekst na wideo, Soraa teraz Google próbuje ukraść część tego światła reflektorów. Google twierdzi, że zostało to ogłoszone we wtorek podczas konferencji programistów I/O Widzę — swój najnowszy generatywny model wideo AI — może generować „wysokiej jakości” filmy w rozdzielczości 1080p trwające ponad minutę w szerokiej gamie stylów wizualnych i kinowych.

Jak wynika z komunikatu prasowego Google, Veo „posiada zaawansowaną wiedzę w zakresie języka naturalnego”, dzięki czemu modelka rozumie terminy filmowe, takie jak „timelapse” czy „zdjęcia krajobrazu z lotu ptaka”. Użytkownicy mogą kierować pożądanymi wynikami za pomocą podpowiedzi tekstowych, graficznych lub wideo, a Google twierdzi, że powstałe filmy są „bardziej spójne i spójne”, przedstawiając bardziej realistyczny ruch ludzi, zwierząt i obiektów w całych ujęciach.

Oto kilka przykładów, ale jeśli możesz, zignoruj ​​​​niską rozdzielczość — musieliśmy skompresować filmy demonstracyjne do formatu GIF.
Obraz: Google

Dyrektor generalny Google DeepMind, Demis Hassabis, powiedział w poniedziałkowym podglądzie prasowym, że wyniki wideo można udoskonalić za pomocą dodatkowych podpowiedzi oraz że Google bada dodatkowe funkcje, które umożliwią Veo tworzenie scenorysów i dłuższych scen.

Podobnie jak w przypadku wielu podglądów modeli AI, większość osób chcących samodzielnie wypróbować Veo będzie prawdopodobnie musiała chwilę poczekać. Google twierdzi, że zaprasza wybranych filmowców i twórców do eksperymentowania z modelem w celu ustalenia, w jaki sposób może on najlepiej wspierać twórców, i będzie opierać się na tej współpracy, aby mieć pewność, że „twórcy mają głos” w sprawie opracowywania technologii sztucznej inteligencji Google.

Tutaj możesz zobaczyć, jak słońce prawidłowo pojawia się za koniem i jak światło delikatnie prześwieca przez jego ogon.
Obraz: Google

Niektóre funkcje Veo zostaną także udostępnione „wybranym twórcom w nadchodzących tygodniach” w ramach prywatnego podglądu w VideoFX — możesz zapisz się na listę oczekujących tutaj aby mieć szansę wypróbować go wcześniej. W przeciwnym razie Google planuje także „w przyszłości” dodać część swoich możliwości do YouTube Shorts.

Jest to jeden z kilku modeli generacji wideo, które Google wyprodukował na przestrzeni ostatnich kilku lat Phenaki i Imagen Video — która produkowała prymitywne, często zniekształcone klipy wideo — do Model Lumiere’a zaprezentowano go w styczniu tego roku. Ten ostatni był jednym z najbardziej imponujących modeli, jakie widzieliśmy wcześniej Sora została ogłoszona w lutymz Google twierdzi, że Veo jest w stanie jeszcze lepiej zrozumieć treść wideo, symulować fizykę w świecie rzeczywistym, renderować dane wyjściowe w wysokiej rozdzielczości i nie tylko.

Tymczasem OpenAI już się rozkręca Sorę do Hollywood i planuje udostępnić go publicznie jeszcze w tym roku, po tym jak już w marcu zapowiadał, że tak się stanie gotowy za „kilka miesięcy”..” Firma już myśli o włączeniu dźwięku do Sory i może udostępnić model bezpośrednio w aplikacjach do edycji wideo, takich jak Adobe Premiere Pro. Biorąc pod uwagę, że Veo jest także narzędziem dla filmowców, przewaga OpenAI może utrudnić projektowi Google konkurencyjność.

źródło