Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Chiński gigant handlu elektronicznego Alibaba wypuścił najnowszy model ze swojej stale rozwijającej się rodziny Quen. Jest znany jako Kolejka z pytaniami (QWQ) i stanowi najnowszego konkurenta typu open source dla modelu wnioskowania O1 OpenAI.

Podobnie jak inne duże modele logiczne (LRM), QWQ wykorzystuje dodatkowe cykle obliczeniowe podczas wnioskowania, aby przejrzeć swoje odpowiedzi i poprawić błędy, dzięki czemu jest bardziej odpowiedni do zadań wymagających logicznego rozumowania i matematyki. Wymagane jest planowanie takie jak kodowanie.

Czym jest Kwestionariusz z Pytaniami (OwQ?) i czy można go wykorzystać w celach komercyjnych?

Alibaba udostępniła wersję QwQ zawierającą 32 miliardy parametrów i kontekst zawierający 32 000 tokenów. Model jest obecnie w fazie zapoznawczej, co oznacza, że ​​prawdopodobnie pojawi się wersja o wysokiej wydajności.

Według testów Alibaba, QwQ przewyższa wersję o1-preview w testach porównawczych AIME i MATH, które oceniają umiejętności rozwiązywania problemów matematycznych. Przewyższa także O1-mini w GPQA, będącym punktem odniesienia dla rozumowania naukowego. QwQ pozostaje w tyle za o1 w testach kodowania LiveCodeBench, ale nadal przewyższa inne pionierskie modele, takie jak GPT-4o i Cloud 3.5 Sonnet.

Przykładowe wyjście Quen z pytaniami

Do QwQ nie jest dołączona dokumentacja opisująca dane lub proces używany do uczenia modelu, co utrudnia odtworzenie wyników modelu. Jednakże, ponieważ model jest otwarty, w przeciwieństwie do OpenAI o1, jego „proces myślenia” nie jest ukryty i można go wykorzystać do zrozumienia, w jaki sposób model uzasadnia rozwiązywanie problemów.

Alibaba wypuściła także model na licencji Apache 2.0, co oznacza, że ​​można go używać w celach komercyjnych.

„Przeprowadziliśmy szeroko zakrojone badania”

według A wpis na blogu Opublikowano go wraz z premierą modelu: „Dzięki intensywnym eksploracji i niezliczonym testom odkryliśmy coś głębokiego: kiedy mamy czas na rozważenie, zadawanie pytań i refleksję, model dotyczy matematyki i programowania. „Zrozumienie rozkwita jak kwiat otwierający się na słońce.” …Ten proces uważnej refleksji i kwestionowania siebie prowadzi do niezwykłego sukcesu w rozwiązywaniu złożonych problemów.

Jest to bardzo podobne do tego, skąd wiemy, jak działają modele logiczne. Generując więcej tokenów i przeglądając swoje poprzednie odpowiedzi, modele z większym prawdopodobieństwem poprawią potencjalne błędy. Marco-O1, kolejny model logiczny wydany niedawno przez Alibaba, może również zawierać wskazówki dotyczące działania QwQ. Używa Marco-O1 wyszukiwanie drzew w Monte Carlo (MCTS) i autorefleksja w momencie zgadywania, aby dokonać różnych gałęzi rozumowania i wybrać najlepszą odpowiedź. Model został przeszkolony na podstawie przykładów łańcucha myślowego (COT) i danych syntetycznych wygenerowanych za pomocą algorytmu MCTS.

Alibaba wyjaśnia, że ​​QwQ nadal ma ograniczenia, takie jak mieszanie języków czy utknięcie w cyklicznych cyklach logicznych. Model dostępny do pobrania przytulanie twarzy Demo online można znaleźć tutaj obejmując przestrzeń twarzy,

Era LLM ustępuje miejsca LRM: dużym modelom rozumowania

Wydanie O1 doprowadziło do wzrostu zainteresowania budowaniem LRM, mimo że niewiele wiadomo na temat działania modelu pod maską poza wykorzystaniem skali czasu szacowania w celu poprawy odpowiedzi modelu.

Teraz O1 ma wielu chińskich konkurentów. Chińskie laboratorium sztucznej inteligencji DeepSeek opublikowało niedawno wersję zapoznawczą swojego konkurenta O1, R1-Lite, który jest obecnie dostępny wyłącznie za pośrednictwem firmowego interfejsu czatu. Według doniesień wersja r1-lite-preview przewyższa wersję o1 w kilku kluczowych testach porównawczych.

Innym niedawno opublikowanym modelem jest LLaVA-o1, opracowany przez naukowców z kilku uniwersytetów w Chinach, który przenosi paradygmat wnioskowania w czasie do otwartego modelu języka wizyjnego (VLM).

Skupienie się na LRM pojawia się w czasie niepewności co do przyszłości przepisów dotyczących skalowania modeli. raporty Wiele wskazuje na to, że laboratoria AI, takie jak OpenAI, Google DeepMind i Anthropic, uzyskują malejące zyski ze szkolenia dużych modeli. Generowanie dużych ilości wysokiej jakości danych szkoleniowych staje się coraz trudniejsze, ponieważ modele są już szkolone na bilionach tokenów zebranych z Internetu.

W międzyczasie skala wnioskowania oferuje alternatywę, która może zapewnić kolejny przełom w ulepszaniu możliwości modeli sztucznej inteligencji nowej generacji. Istnieją doniesienia, że ​​OpenAI tak Wykorzystanie o1 do generowania syntetycznych danych logicznych Aby wyszkolić następne pokolenie naszych LLM. Uwolnienie modelu otwartego rozumowania prawdopodobnie pobudzi postęp i zwiększy konkurencyjność sektora.


Source link