Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Chiński gigant handlu elektronicznego Alibaba wypuścił najnowszy model ze swojej stale rozwijającej się rodziny Quen. Jest znany jako Kolejka z pytaniami (QWQ) i stanowi najnowszego konkurenta typu open source dla modelu wnioskowania O1 OpenAI.
Podobnie jak inne duże modele logiczne (LRM), QWQ wykorzystuje dodatkowe cykle obliczeniowe podczas wnioskowania, aby przejrzeć swoje odpowiedzi i poprawić błędy, dzięki czemu jest bardziej odpowiedni do zadań wymagających logicznego rozumowania i matematyki. Wymagane jest planowanie takie jak kodowanie.
Czym jest Kwestionariusz z Pytaniami (OwQ?) i czy można go wykorzystać w celach komercyjnych?
Alibaba udostępniła wersję QwQ zawierającą 32 miliardy parametrów i kontekst zawierający 32 000 tokenów. Model jest obecnie w fazie zapoznawczej, co oznacza, że prawdopodobnie pojawi się wersja o wysokiej wydajności.
Według testów Alibaba, QwQ przewyższa wersję o1-preview w testach porównawczych AIME i MATH, które oceniają umiejętności rozwiązywania problemów matematycznych. Przewyższa także O1-mini w GPQA, będącym punktem odniesienia dla rozumowania naukowego. QwQ pozostaje w tyle za o1 w testach kodowania LiveCodeBench, ale nadal przewyższa inne pionierskie modele, takie jak GPT-4o i Cloud 3.5 Sonnet.
Do QwQ nie jest dołączona dokumentacja opisująca dane lub proces używany do uczenia modelu, co utrudnia odtworzenie wyników modelu. Jednakże, ponieważ model jest otwarty, w przeciwieństwie do OpenAI o1, jego „proces myślenia” nie jest ukryty i można go wykorzystać do zrozumienia, w jaki sposób model uzasadnia rozwiązywanie problemów.
Alibaba wypuściła także model na licencji Apache 2.0, co oznacza, że można go używać w celach komercyjnych.
„Przeprowadziliśmy szeroko zakrojone badania”
według A wpis na blogu Opublikowano go wraz z premierą modelu: „Dzięki intensywnym eksploracji i niezliczonym testom odkryliśmy coś głębokiego: kiedy mamy czas na rozważenie, zadawanie pytań i refleksję, model dotyczy matematyki i programowania. „Zrozumienie rozkwita jak kwiat otwierający się na słońce.” …Ten proces uważnej refleksji i kwestionowania siebie prowadzi do niezwykłego sukcesu w rozwiązywaniu złożonych problemów.
Jest to bardzo podobne do tego, skąd wiemy, jak działają modele logiczne. Generując więcej tokenów i przeglądając swoje poprzednie odpowiedzi, modele z większym prawdopodobieństwem poprawią potencjalne błędy. Marco-O1, kolejny model logiczny wydany niedawno przez Alibaba, może również zawierać wskazówki dotyczące działania QwQ. Używa Marco-O1 wyszukiwanie drzew w Monte Carlo (MCTS) i autorefleksja w momencie zgadywania, aby dokonać różnych gałęzi rozumowania i wybrać najlepszą odpowiedź. Model został przeszkolony na podstawie przykładów łańcucha myślowego (COT) i danych syntetycznych wygenerowanych za pomocą algorytmu MCTS.
Alibaba wyjaśnia, że QwQ nadal ma ograniczenia, takie jak mieszanie języków czy utknięcie w cyklicznych cyklach logicznych. Model dostępny do pobrania przytulanie twarzy Demo online można znaleźć tutaj obejmując przestrzeń twarzy,
Era LLM ustępuje miejsca LRM: dużym modelom rozumowania
Wydanie O1 doprowadziło do wzrostu zainteresowania budowaniem LRM, mimo że niewiele wiadomo na temat działania modelu pod maską poza wykorzystaniem skali czasu szacowania w celu poprawy odpowiedzi modelu.
Teraz O1 ma wielu chińskich konkurentów. Chińskie laboratorium sztucznej inteligencji DeepSeek opublikowało niedawno wersję zapoznawczą swojego konkurenta O1, R1-Lite, który jest obecnie dostępny wyłącznie za pośrednictwem firmowego interfejsu czatu. Według doniesień wersja r1-lite-preview przewyższa wersję o1 w kilku kluczowych testach porównawczych.
Innym niedawno opublikowanym modelem jest LLaVA-o1, opracowany przez naukowców z kilku uniwersytetów w Chinach, który przenosi paradygmat wnioskowania w czasie do otwartego modelu języka wizyjnego (VLM).
Skupienie się na LRM pojawia się w czasie niepewności co do przyszłości przepisów dotyczących skalowania modeli. raporty Wiele wskazuje na to, że laboratoria AI, takie jak OpenAI, Google DeepMind i Anthropic, uzyskują malejące zyski ze szkolenia dużych modeli. Generowanie dużych ilości wysokiej jakości danych szkoleniowych staje się coraz trudniejsze, ponieważ modele są już szkolone na bilionach tokenów zebranych z Internetu.
W międzyczasie skala wnioskowania oferuje alternatywę, która może zapewnić kolejny przełom w ulepszaniu możliwości modeli sztucznej inteligencji nowej generacji. Istnieją doniesienia, że OpenAI tak Wykorzystanie o1 do generowania syntetycznych danych logicznych Aby wyszkolić następne pokolenie naszych LLM. Uwolnienie modelu otwartego rozumowania prawdopodobnie pobudzi postęp i zwiększy konkurencyjność sektora.
Source link