![OpenAI może wkrótce zadebiutować jako multimodalny asystent cyfrowy AI OpenAI może wkrótce zadebiutować jako multimodalny asystent cyfrowy AI](https://i1.wp.com/cdn.vox-cdn.com/thumbor/QCdO_oKAdBIZCodEUT2WCBFgQSo=/0x0:2040x1360/1200x628/filters:focal(1020x680:1021x681)/cdn.vox-cdn.com/uploads/chorus_asset/file/24390406/STK149_AI_03.jpg?w=640&resize=640,0&ssl=1)
OpenAI pokazało niektórym swoim klientom nowy multimodalny model sztucznej inteligencji, który może zarówno rozmawiać z Tobą, jak i rozpoznawać obiekty, zgodnie z nowy raport z Informacja. Powołując się na anonimowe źródła, które to widziały, portal twierdzi, że może to być część działalności firmy planuje pokazać w poniedziałek.
Nowy model podobno oferuje szybszą i dokładniejszą interpretację obrazów i dźwięku niż to, co mogą zrobić jego istniejące oddzielne modele transkrypcji i zamiany tekstu na mowę. Najwyraźniej byłby w stanie pomóc agentom obsługi klienta „lepiej zrozumieć intonację głosów rozmówców lub to, czy są oni sarkastyczni”, a „teoretycznie” model może pomóc uczniom w matematyce lub tłumaczeniu znaków ze świata rzeczywistego, pisze Informacja.
Źródła outletu mówią, że model może prześcignąć GPT-4 Turbo w „odpowiadaniu na niektóre rodzaje pytań”, ale nadal jest podatny na pewne pomyłki.
Według programisty Ananay’a Arory, który opublikował powyższy zrzut ekranu kodu związanego z połączeniami, możliwe jest, że OpenAI przygotowuje także nową wbudowaną funkcję ChatGPT do wykonywania połączeń telefonicznych. Arora także dostrzeżone dowody że OpenAI udostępniło serwery przeznaczone do komunikacji audio i wideo w czasie rzeczywistym.
Nic z tego nie byłoby GPT-5, jeśli zostanie zaprezentowane w przyszłym tygodniu. Dyrektor generalny Sam Altman tak wyraźnie zaprzeczono że nadchodzące ogłoszenie ma cokolwiek wspólnego z modelem, który ma być „materialnie lepszy” niż GPT-4. Informacja pisze, że GPT-5 może zostać upubliczniony do końca roku.