Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Dziewiąty dzień świątecznego rozszerzenia ogłoszeń o produktach, znanego jako „12 dni OpenAI”. OpenAI oferuje swój najbardziej zaawansowany model, o1, zewnętrznym programistom Poprzez interfejs programowania aplikacji (API).

To duży krok naprzód dla programistów, którzy chcą tworzyć nowe zaawansowane aplikacje AI lub integrować najbardziej zaawansowaną technologię OpenAI z istniejącymi aplikacjami i przepływami pracy, niezależnie od tego, czy są przeznaczone dla przedsiębiorstw, czy dla konsumentów.

Jeśli nie znasz jeszcze serii o1 OpenAI, oto podsumowanie: Została ona ogłoszona we wrześniu 2024 roku jako pierwsza z nowej „rodziny” modeli firmy ChatGPT, opartej na modelach dużych języków (LLM). do przodu. Seria GPT i oferuje możliwości „logiczne”.

Zasadniczo rodzina modeli O1 – O1 i O1 Mini – potrzebuje więcej czasu, aby odpowiedzieć na monity użytkownika, ale sprawdź sam. podczas gdy oni przygotowują odpowiedź Aby sprawdzić, czy mają rację i uniknąć halucynacji. W tamtym czasie OpenAI twierdziło, że o1 może poradzić sobie z bardziej złożonymi problemami na poziomie doktoratu – niektóre Dostępne również dla użytkowników z prawdziwego świata,

Podczas gdy programiści mieli wcześniej dostęp do wersji zapoznawczej o1, na podstawie której mogli tworzyć własne aplikacje – na przykład doradcy doktorscy lub asystenci laboratoryjni – gotowa do produkcji wersja pełnego modelu o1 za pośrednictwem interfejsu API zapewnia lepszą wydajność, mniejsze opóźnienia i nowe funkcje ułatwiające integrację z aplikacjami w świecie rzeczywistym.

Około dwa i pół tygodnia temu OpenAI udostępniło O1 konsumentom w ramach planów ChatGPT Plus i Pro, a także dodało możliwość analizowania przez modele zdjęć i plików przesyłanych przez użytkowników oraz reagowania na nie.

Wraz z dzisiejszą premierą OpenAI ogłosiło znaczące aktualizacje swojego Realtime API, a także obniżkę cen i nową metodologię dostrajania, która daje programistom większą kontrolę nad ich modelami.

Pełny model O1 jest teraz dostępny dla programistów za pośrednictwem interfejsu API OpenAI

Nowy model O1, dostępny jako o1-2024-12-17, został zaprojektowany tak, aby wyróżniał się w złożonych, wieloetapowych zadaniach rozumowania. W porównaniu do wcześniejszej wersji zapoznawczej O1, ta wersja poprawia dokładność, wydajność i elastyczność.

OpenAI odnotowuje znaczny postęp w kilku testach porównawczych, w tym w zadaniach związanych z kodowaniem, matematyką i rozumowaniem wizualnym.

Na przykład wyniki kodowania w SWE-Bench Verified wzrosły z 41,3 do 48,9, podczas gdy wydajność w teście AIME skoncentrowanym na matematyce wzrosła z 42 do 79,2. Te ulepszenia sprawiają, że O1 nadaje się do budowania narzędzi usprawniających obsługę klienta, optymalizujących logistykę lub rozwiązujących trudne problemy analityczne.

Kilka nowych funkcji rozszerza funkcjonalność o1 dla programistów. Ustrukturyzowane dane wyjściowe umożliwiają niezawodne dopasowywanie odpowiedzi do niestandardowych formatów, takich jak schemat JSON, zapewniając spójność podczas interakcji z systemami zewnętrznymi. Wywołanie funkcji upraszcza proces łączenia O1 z API i bazami danych. Zdolność do wnioskowania na podstawie danych wizualnych otwiera możliwości zastosowania w produkcji, nauce i kodowaniu.

Deweloperzy mogą również dostroić zachowanie o1 za pomocą nowego parametru Reasoning_effort, który kontroluje, ile czasu model spędza na zadaniu, aby zrównoważyć wydajność i czas reakcji.

Interfejs API Realtime OpenAI zostaje ulepszony, aby zapewnić obsługę inteligentnych, konwersacyjnych asystentów AI głosowych/audio

OpenAI ogłosiło także aktualizację swojego interfejsu API Realtime, zaprojektowanego z myślą o zapewnianiu naturalnych doświadczeń konwersacyjnych z niskimi opóźnieniami, takich jak asystenci głosowi, narzędzia do tłumaczenia na żywo lub wirtualni korepetytorzy.

Nowa integracja z WebRTC upraszcza tworzenie aplikacji głosowych, zapewniając bezpośrednią obsługę strumieniowego przesyłania dźwięku, tłumienia szumów i kontroli tłumu. Programiści mogą teraz integrować funkcje czasu rzeczywistego przy minimalnej konfiguracji, nawet w zmiennych warunkach sieciowych.

OpenAI wprowadza także nowe ceny dla swojego API Realtime, obniżając o 60% koszt dźwięku GPT-4O do 40 dolarów za milion tokenów wejściowych i 80 dolarów za milion tokenów wyjściowych.

Koszty buforowanego wejścia audio spadły o 87,5% i obecnie kosztują 2,50 dolara za milion tokenów wejściowych. Aby jeszcze bardziej poprawić przystępność cenową, OpenAI dodaje GPT-4o Mini, mniejszy, ekonomiczny model wyceniony na 10 dolarów za milion tokenów wejściowych i 20 dolarów za milion tokenów wyjściowych.

Stawki za tokeny tekstowe dla GPT-4o Mini są również dość niskie, zaczynając od 0,60 USD za tokeny wejściowe i 2,40 USD za tokeny wyjściowe.

Oprócz cen OpenAI zapewnia programistom większą kontrolę nad odpowiedziami w interfejsach API czasu rzeczywistego. Funkcje takie jak równoczesna reakcja poza pasmem umożliwiają wykonywanie zadań w tle, takich jak moderowanie treści, bez zakłócania komfortu użytkownika. Programiści mogą także dostosowywać konteksty wejściowe, aby skupiać się na określonych częściach rozmowy i kontrolować, kiedy uruchamiane są reakcje głosowe, co zapewnia bardziej precyzyjne i płynne interakcje.

Priorytetowe dostrajanie oferuje nowe opcje dostosowywania

Kolejnym ważnym dodatkiem jest priorytetowe dostrajanieMetoda dostosowywania modelu w oparciu o preferencje użytkownika i programisty.

W przeciwieństwie do nadzorowanego dostrajania, które opiera się na precyzyjnych parach wejście-wyjście, dostrajanie preferencji wykorzystuje porównania parami, aby nauczyć model, które reakcje są preferowane. To podejście jest szczególnie skuteczne w przypadku zadań subiektywnych, takich jak podsumowania, kreatywne pisanie lub scenariusze, w których liczy się ton i styl.

Wstępne testy z partnerami takimi jak Rogo AI, która tworzy asystentów dla analityków finansowych, dają obiecujące wyniki. Rogo poinformowało, że dostrajanie aprioryczne pomogło ich modelowi lepiej obsługiwać złożone zapytania spoza dystrybucji niż tradycyjne dostrajanie, poprawiając dokładność zadań o ponad 5%. Ta funkcja jest teraz dostępna dla gpt-4o-2024-08-06 i gpt-4o-mini-2024-07-18, a na początku przyszłego roku planuje się rozszerzyć obsługę nowych modeli.

Nowy SDK dla programistów Go i Java

Aby usprawnić integrację, OpenAI rozszerza swoją oficjalną ofertę SDK o wersje beta dla Go i Java. Te zestawy SDK łączą się z istniejącymi bibliotekami Python, Node.js i .NET, ułatwiając programistom interakcję z modelami OpenAI w większej liczbie środowisk programistycznych. Pakiet Go SDK jest szczególnie przydatny do tworzenia skalowalnych systemów zaplecza, natomiast pakiet Java SDK jest dostosowany do aplikacji klasy korporacyjnej, które opierają się na silnym typowaniu i solidnym ekosystemie.

Dzięki tym aktualizacjom OpenAI oferuje programistom rozszerzony zestaw narzędzi do tworzenia zaawansowanych, konfigurowalnych aplikacji opartych na sztucznej inteligencji. Niezależnie od tego, czy chodzi o ulepszone możliwości wnioskowania O1, ulepszenia API w czasie rzeczywistym, czy opcje dostrajania, najnowsze oferty OpenAI mają na celu zapewnienie zarówno lepszej wydajności, jak i efektywności kosztowej firmom przesuwającym granice integracji sztucznej inteligencji.


Source link