Ważna aktualizacja ChatGPT-4o umożliwia rozmowy audio-wideo z „emocjonalnym” chatbotem AI

W poniedziałek zadebiutował OpenAI GPT-4o (o jak „omni”), nowy, główny model sztucznej inteligencji, który pozornie może rozmawiać za pomocą mowy w czasie rzeczywistym, odczytywać sygnały emocjonalne i reagować na bodźce wizualne. Działa szybciej niż poprzedni najlepszy model OpenAI, GPT-4 Turboi będzie bezpłatny dla użytkowników ChatGPT i dostępny jako usługa poprzez API, a jego wdrożenie nastąpi w ciągu najbliższych kilku tygodni, mówi OpenAI.

OpenAI ujawniło nowe możliwości rozmów audio i rozumienia wizji w YouTube transmisja na żywo zatytułowana „Wiosenna aktualizacja OpenAI” zaprezentowana przez CTO OpenAI Mirę Murati oraz pracowników Marka Chena i Barreta Zopha, która obejmowała demonstracje na żywo GPT-4o w akcji.

Według OpenAI, GPT-4o reaguje na sygnały audio średnio w ciągu około 320 milisekund, co jest podobne do czasu reakcji człowieka podczas rozmowy. Badanie z 2009 rokui znacznie krótsze niż typowe opóźnienie 2–3 sekund występujące w poprzednich modelach. OpenAI twierdzi, że dzięki GPT-4o przeszkoliło całkowicie nowy model sztucznej inteligencji, wykorzystując tekst, obraz i dźwięk w taki sposób, że wszystkie wejścia i wyjścia „są przetwarzane przez tę samą sieć neuronową”.

Wiosenna aktualizacja OpenAI.

„Ponieważ GPT-4o to nasz pierwszy model łączący wszystkie te modalności, wciąż dopiero zarysowujemy powierzchnię, badając możliwości tego modelu i jego ograniczenia” – mówi OpenAI.

Podczas transmisji na żywo OpenAI zademonstrowało możliwości rozmów audio w czasie rzeczywistym GPT-4o, prezentując jego zdolność do prowadzenia naturalnego, responsywnego dialogu. Asystent AI wydawał się łatwo wychwytywać emocje, dostosowywał swój ton i styl do żądań użytkownika, a nawet włączał do swoich odpowiedzi efekty dźwiękowe, śmiech i śpiew.

CTO OpenAI Mira Murati debiutowała jako GPT-4o podczas transmisji na żywo z wiosennej aktualizacji OpenAI 13 maja 2024 r.
Powiększać / CTO OpenAI Mira Murati debiutowała jako GPT-4o podczas transmisji na żywo z wiosennej aktualizacji OpenAI 13 maja 2024 r.

OpenAI

Prezenterzy podkreślili także ulepszone zrozumienie wizualne GPT-4o. Przesyłając zrzuty ekranu, dokumenty zawierające tekst i obrazy lub wykresy, użytkownicy mogą najwyraźniej prowadzić rozmowy na temat treści wizualnych i otrzymywać analizę danych z GPT-4o. W demonstracji na żywo asystent AI zademonstrował swoją zdolność do analizowania selfie, wykrywania emocji i beztroskiego przekomarzania się na temat obrazów.

Ponadto GPT-4o wykazał lepszą szybkość i jakość w ponad 50 językach, co według OpenAI obejmuje 97 procent światowej populacji. W modelu zaprezentowano także możliwości tłumaczenia w czasie rzeczywistym, ułatwiające rozmowy między osobami posługującymi się różnymi językami za pomocą niemal natychmiastowych tłumaczeń.

Najpierw OpenAI dodano funkcje konwersacji głosowej do ChatGPT we wrześniu 2023 r., który wykorzystywał Szeptmodel rozpoznawania mowy AI do wprowadzania danych i a niestandardową technologię syntezy głosu dla wyjścia. W przeszłości multimodalny interfejs ChatGPT OpenAI wykorzystywał trzy procesy: transkrypcję (z mowy na tekst), inteligencję (przetwarzanie tekstu jako tokeny) i tekst na mowę, co z każdym krokiem zwiększało opóźnienie. W przypadku GPT-4o wszystkie te kroki podobno zachodzą jednocześnie. Według Murati „rozumuje poprzez głos, tekst i obraz”. Nazwali to „omnimodelem” na slajdzie pokazanym na ekranie za Murati podczas transmisji na żywo.

OpenAI ogłosiło, że GPT-4o będzie dostępne dla wszystkich użytkowników ChatGPT, a płatni subskrybenci będą mieli dostęp do pięciokrotności limitów stawek w porównaniu z bezpłatnymi użytkownikami. GPT-4o w formie API będzie podobno charakteryzował się dwukrotnie większą szybkością, o 50 procent niższym kosztem i pięciokrotnie wyższymi limitami szybkości w porównaniu do GPT-4 Turbo.

W <em>Jej</em>główny bohater rozmawia z osobowością AI za pomocą bezprzewodowych słuchawek dousznych podobnych do AirPods.” src=”https://cdn.arstechnica.net/wp-content/uploads/2023/10/her_2-640×344.jpg” szerokość=”640 ” wysokość=”344″ srcset=”https://cdn.arstechnica.net/wp-content/uploads/2023/10/her_2-1280×689.jpg 2x”/></a><figcaption class=
Powiększać / W Jejgłówny bohater rozmawia z osobowością AI za pośrednictwem bezprzewodowych słuchawek dousznych podobnych do AirPods.

Warner Bros.

Możliwości zademonstrowane podczas transmisji na żywo i liczne filmy na stronie internetowej OpenAI przypomnij sobie konwersacyjnego agenta AI z filmu science-fiction z 2013 roku Jej. W tym filmie główny bohater rozwija osobiste przywiązanie do osobowości AI. Dzięki symulowanej ekspresji emocjonalnej GPT-4o z OpenAI (można to nazwać sztuczną inteligencją emocjonalną) nie jest wykluczone, że podobne przywiązania emocjonalne po ludzkiej stronie mogą rozwinąć się u asystenta OpenAI, jak już to sprawdziliśmy już widziałem w przeszłości.

Murati uznał nowe wyzwania, jakie stwarzają możliwości przesyłania dźwięku i obrazu w czasie rzeczywistym przez GPT-4o pod względem bezpieczeństwa, i oświadczył, że firma będzie kontynuować badania nad bezpieczeństwem i pozyskiwać opinie użytkowników testowych podczas iteracyjnego wdrażania w nadchodzących tygodniach.

„GPT-4o przeszedł również szeroko zakrojoną współpracę zewnętrzną z ponad 70 zewnętrznymi ekspertami w takich dziedzinach, jak psychologia społeczna, uprzedzenia i uczciwość oraz dezinformacja, aby zidentyfikować ryzyko wprowadzone lub wzmocnione przez nowo dodane modalności” – mówi OpenAI. „Wykorzystaliśmy tę wiedzę (sic!), aby opracować nasze interwencje w zakresie bezpieczeństwa, aby poprawić bezpieczeństwo interakcji z GPT-4o. Będziemy nadal minimalizować nowe zagrożenia, gdy tylko zostaną odkryte”.

Aktualizacje ChatGPT

Również w poniedziałek ogłosiło OpenAI kilka aktualizacji do ChatGPT, w tym aplikacji komputerowej ChatGPT dla systemu macOS, która będzie dostępna dla użytkowników ChatGPT Plus już dziś, a według OpenAI stanie się „szerzej dostępna” w nadchodzących tygodniach. OpenAI usprawnia także interfejs ChatGPT, dodając nowy ekran główny i układ wiadomości.

Jak wspomnieliśmy krótko powyżej, korzystając z modelu GPT-4o (kiedy stanie się on powszechnie dostępny), użytkownicy ChatGPT Free będą mieli dostęp do przeglądania stron internetowych, analityki danych, Sklep GPTI Pamięć funkcje, które wcześniej były ograniczone do abonentów ChatGPT Plus, Team i Enterprise.

źródło