OpenAI może wkrótce zadebiutować jako multimodalny asystent cyfrowy AI

OpenAI pokazało niektórym swoim klientom nowy multimodalny model sztucznej inteligencji, który może zarówno rozmawiać z Tobą, jak i rozpoznawać obiekty, zgodnie z nowy raport z Informacja. Powołując się na anonimowe źródła, które to widziały, portal twierdzi, że może to być część działalności firmy planuje pokazać w poniedziałek.

Nowy model podobno oferuje szybszą i dokładniejszą interpretację obrazów i dźwięku niż to, co mogą zrobić jego istniejące oddzielne modele transkrypcji i zamiany tekstu na mowę. Najwyraźniej byłby w stanie pomóc agentom obsługi klienta „lepiej zrozumieć intonację głosów rozmówców lub to, czy są oni sarkastyczni”, a „teoretycznie” model może pomóc uczniom w matematyce lub tłumaczeniu znaków ze świata rzeczywistego, pisze Informacja.

Źródła outletu mówią, że model może prześcignąć GPT-4 Turbo w „odpowiadaniu na niektóre rodzaje pytań”, ale nadal jest podatny na pewne pomyłki.

Według programisty Ananay’a Arory, który opublikował powyższy zrzut ekranu kodu związanego z połączeniami, możliwe jest, że OpenAI przygotowuje także nową wbudowaną funkcję ChatGPT do wykonywania połączeń telefonicznych. Arora także dostrzeżone dowody że OpenAI udostępniło serwery przeznaczone do komunikacji audio i wideo w czasie rzeczywistym.

Nic z tego nie byłoby GPT-5, jeśli zostanie zaprezentowane w przyszłym tygodniu. Dyrektor generalny Sam Altman tak wyraźnie zaprzeczono że nadchodzące ogłoszenie ma cokolwiek wspólnego z modelem, który ma być „materialnie lepszy” niż GPT-4. Informacja pisze, że GPT-5 może zostać upubliczniony do końca roku.

źródło