Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Tak jak Amazon robi duży krok w dziedzinie sztucznej inteligencji dzięki nowej rodzinie podstawowych modeli Nova, tak Google podwaja swoje multimodalne możliwości sztucznej inteligencji. Dział chmur technologicznego giganta ogłosił, że jego najnowsze modele do generowania wideo i obrazu, VO i Imagen 3, są teraz dostępne w Vertex AI.

To posunięcie umożliwia zespołom integrację najnowocześniejszych możliwości produkcji wideo i obrazów z przepływami pracy opartymi na sztucznej inteligencji, odblokowując różnorodne zastosowania, szczególnie w marketingu i reklamie. Dzięki temu Google Cloud jest pierwszym hiperskalerem oferującym swoim klientom model wideo.

Chociaż model Veo znajduje się obecnie w prywatnej wersji zapoznawczej, Imagen 3 będzie ogólnie dostępny dla wszystkich użytkowników Vertex AI od przyszłego tygodnia. Warto zauważyć, że Imagen 3 zawiera także funkcje edycji, umożliwiające użytkownikom udoskonalanie wygenerowanych obrazów w celu spełnienia określonych potrzeb twórczych.

Co oferują Veo i Imagen 3?

Zaprezentowany po raz pierwszy na konferencji programistów I/O firmy Google, Veo jest odpowiedzią Google DeepMind na konkurencję, taką jak Runway Gen-3 i Sora OpenAI, oferującą zaawansowane możliwości generowania wideo. Model przekształca sygnały tekstowe lub graficzne w kinowe filmy o wysokiej rozdzielczości w różnych stylach wizualnych, tworząc klipy dłuższe niż 60 sekund. To, co go wyróżnia, to stabilność na poziomie klatki, która zapewnia płynne poruszanie się obiektów w obrębie ujęcia.

Imagen 3 firmy DeepMind przetwarza tekst na obraz i tworzy fotorealistyczne wizualizacje w różnych stylach. Google twierdzi, że przewyższa swoich poprzedników pod względem szczegółowości, dokładności oświetlenia i redukcji artefaktów.

Poza generowaniem użytkownicy z listy uprawnień Google mogą również uzyskać dostęp do zaawansowanych opcji dostosowywania za pomocą Imagen 3. Obejmują one skalowanie obrazu, malowanie, przemalowywanie i zastępowanie tła – wszystko w oparciu o wskazówki tekstowe. Dodatkowo użytkownicy mogą dostarczać obrazy referencyjne, umożliwiając Imagen 3 tworzenie treści zgodnych z estetyką konkretnej marki, logo lub cechami produktu.

Szersze konsekwencje dla branży

Vertex AI od dawna jest flagową platformą Google Cloud usprawniającą tworzenie i wdrażanie aplikacji AI. Dzięki integracji Veo i Imagen 3 platforma zapewnia organizacjom jeszcze bardziej wszechstronne narzędzia do wprowadzania innowacji w marketingu, sprzedaży i nie tylko.

Na przykład Imagen 3 upraszcza tworzenie wysokiej jakości zasobów, takich jak zdjęcia produktów i treści w mediach społecznościowych, podczas gdy VO rozszerza tę możliwość, zapewniając zespołom możliwość przekształcenia tych wizualizacji w wyrafinowane filmy. Przyspiesza to produkcję, obniża koszty i przyspiesza prototypowanie, umożliwiając zespołom szybszą pracę nad strategiami kreatywnymi.

Warren Barclay, starszy dyrektor ds. zarządzania produktami w Google, powiedział: „Klienci tacy jak Aguda wykorzystują moc modeli sztucznej inteligencji, takich jak Vo, Gemini i Imagen, aby usprawnić produkcję reklam wideo, znacznie skracając czas produkcji”. wpis na bloguPodkreślił również, że oba modele są wyposażone w funkcje bezpieczeństwa, takie jak cyfrowy znak wodny i poręcze do moderowania treści, aby ograniczyć ryzyko związane z generatywną sztuczną inteligencją.

Inni pierwsi użytkownicy to Mondelez International, właściciel marek takich jak Oreo, Cadbury i Milka oraz globalna firma zajmująca się marketingiem i komunikacją WPP. W miarę poszerzania zasięgu modeli Google Foundation firmy z różnych branż mają ogromną szansę na zmianę sposobu tworzenia i dostarczania treści wizualnych.

Konkurencja rośnie

Podczas gdy wszyscy główni dostawcy usług w chmurze, w tym Google Cloud, Amazon Web Services i Microsoft Azure, udostępniają modele generowania obrazów na swoich odpowiednich platformach orkiestracji AI, generowanie wideo było dotychczas dość rzadkie. Decyzja Google o udostępnieniu Veo w prywatnej wersji zapoznawczej zmienia to dzisiaj.

Co ciekawe, wkrótce po ogłoszeniu VO, AWS zrobiło furorę na re:Invent, ogłaszając Nova Reel, podstawowy model, który produkuje sześciosekundowe filmy o studyjnej jakości z podpowiedzi tekstowych i graficznych Is.

Model ten, wraz z innymi modelami z rodziny Nova, będzie dostępny za pośrednictwem Amazon Bedrock – w pełni zarządzanej usługi firmy, zaprojektowanej w celu uproszczenia tworzenia i wdrażania generatywnych aplikacji AI.

Microsoft ze swojej strony wydaje się na tym etapie pozostawać w tyle w tej kategorii. Jej AI Foundry nie obejmuje modeli do tworzenia wideo. Spodziewamy się jednak, że to się zmieni, gdy Sora z OpenAI pojawi się na rynku.


Source link