Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Rząd Zjednoczonych Emiratów Arabskich wspierany Instytut Innowacji Technologicznych (TII) ogłosiła wprowadzenie na rynek Falcon 3, rodziny modeli małych języków (SLM) o otwartym kodzie źródłowym, zaprojektowanych do wydajnego działania w lekkiej infrastrukturze opartej na pojedynczym procesorze graficznym.
Falcon 3 jest dostępny w czterech rozmiarach modeli – 1B, 3B, 7B i 10B – z wariantami podstawowymi i instrukcjami, które obiecują demokratyzację dostępu do zaawansowanych możliwości sztucznej inteligencji dla programistów, badaczy i przedsiębiorstw. Według tabeli liderów Hugging Face modele już w swojej klasie wielkości przewyższają popularne odpowiedniki typu open source lub są do nich zbliżone, w tym Lama Meta i lider kategorii Quen-2.5.
Rozwój ten następuje w czasie, gdy zapotrzebowanie na SLM o niższych parametrach i prostszej konstrukcji niż LLM szybko rośnie ze względu na ich wydajność, przystępność cenową i możliwość wdrożenia na urządzeniach o ograniczonych zasobach. Nadają się do szerokiej gamy zastosowań w branżach takich jak obsługa klienta, opieka zdrowotna, aplikacje mobilne i IoT, gdzie typowe LLM mogą być zbyt kosztowne obliczeniowo, aby działać skutecznie. według ocenia raportyOczekuje się, że rynek tych modeli będzie rósł w ciągu najbliższych pięciu lat ze CAGR na poziomie około 18%.
Co wnosi Falcon 3 do stołu?
Wyszkolona na 14 bilionach tokenów – ponad dwukrotnie więcej niż jej poprzednik Falcon 2 – rodzina Falcon 3 wykorzystuje dekoder z obsługą zapytań grupowych w celu współdzielenia parametrów i zmniejszenia zużycia pamięci dla pamięci podręcznej klucz-wartość (KV) podczas wnioskowania architektura. Umożliwia to szybsze i bardziej wydajne działanie podczas obsługi różnorodnych zadań tekstowych.
Zasadniczo modele obsługują cztery podstawowe języki – angielski, francuski, hiszpański i portugalski – i są wyposażone w okno kontekstowe o wielkości 32 tys., co pozwala im przetwarzać dłuższe dane wejściowe, takie jak dokumenty o dużej zawartości tekstu.
„Falcon 3 jest wszechstronny, przeznaczony zarówno do zadań ogólnych, jak i specjalistycznych, zapewniając użytkownikom najwyższą elastyczność. Jego podstawowy model idealnie nadaje się do zastosowań generatywnych, natomiast wersja instruktażowa doskonale sprawdza się w zadaniach konwersacyjnych, takich jak obsługa klienta czy wirtualni asystenci” – zauważa TII. strona internetowa,
według tabela wyników Mówiąc szczerze, chociaż wszystkie cztery modele Falcona 3 radzą sobie całkiem nieźle, wersje 10B i 7B są gwiazdami programu, osiągając najnowocześniejsze wyniki w zakresie rozumowania, rozumienia języka, wykonywania instrukcji, kodowania i zadań matematycznych.
Wśród modeli mieszczących się w klasie wielkości parametru 13b, wersje 10b i 7b Falcona 3 przewyższają konkurentów, w tym Gemma 2-9b firmy Google, Llama 3.1-8b firmy Meta, Mistral-7b i Yi 1.5-9b. Z wyjątkiem MMLU, przewyższają także lidera kategorii QWEN 2.5-7B Alibaba w większości testów porównawczych – takich jak MUSR, MATH, GPQA i IFeval – które są testami oceniającymi, jak dobrze modele językowe modelują rozumienie i przetwarzanie ludzkiego języka.
wdrożenia w branżach
Modele Falcona 3 już dostępne przytulanie twarzyTII ma służyć szerokiemu gronu użytkowników, umożliwiając opłacalne wdrażanie sztucznej inteligencji bez barier obliczeniowych. Dzięki możliwości radzenia sobie z określonymi zadaniami skupionymi na domenie przy krótkim czasie przetwarzania modele mogą obsługiwać różnorodne aplikacje na brzegu sieci i w środowiskach wrażliwych na prywatność, w tym chatboty obsługi klienta, spersonalizowane systemy rekomendacji, analityka danych, w tym wykrywanie oszustw, zdrowie diagnostyka pielęgnacyjna. Optymalizacja i edukacja łańcucha dostaw.
Instytut planuje także dalszą rozbudowę rodziny Falconów o wprowadzenie modeli o możliwościach multimodalnych. Oczekuje się, że modele te zostaną wprowadzone na rynek w styczniu 2025 roku.
Warto zauważyć, że wszystkie modele są wydawane na podstawie licencji TII Falcon 2.0, liberalnej licencji opartej na Apache 2.0 z polityką dopuszczalnego użytkowania, która zachęca do odpowiedzialnego rozwoju i wdrażania sztucznej inteligencji. Aby pomóc użytkownikom w rozpoczęciu pracy, TII uruchomiło także Falcon Playground, środowisko testowe, w którym badacze i programiści mogą wypróbować model Falcon 3 przed zintegrowaniem go ze swoimi aplikacjami.
Source link