Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Właśnie ukazała się płyta Hugging Face małyvlmKompaktowy model sztucznej inteligencji oparty na języku wizyjnym, który może zmienić sposób, w jaki firmy wykorzystują sztuczną inteligencję w swoich operacjach. Nowy model przetwarza zarówno obrazy, jak i tekst z niezwykłą wydajnością, wymagając jednocześnie jedynie ułamka mocy obliczeniowej wymaganej przez konkurencję.
Moment nie może być lepszy. Gdy firmy walczą gwałtownie rosnące koszty Aby spełnić wymagania obliczeniowe dużych modeli językowych i systemów wizyjnej AI, SmolVLM zapewnia praktyczne rozwiązanie, które nie poświęca wydajności na rzecz dostępności.
Mały model, duży wpływ: jak SmolVLM zmienia grę
„SMOLVLM to kompaktowy, otwarty model multimodalny, który akceptuje dowolne sekwencje danych wejściowych obrazu i tekstu w celu wygenerowania tekstu” – wyjaśnił zespół badawczy Hugging Face. karta modelu,
Ważna jest tu niespotykana dotąd wydajność modelu: wymaga on zaledwie 5,02 GB pamięci RAM GPU, podczas gdy konkurencyjne modele, takie jak np. QUEN-VL2B I stażysta2 2b Zapytaj odpowiednio o 13,70 GB i 10,52 GB.
Wydajność ta stanowi zasadniczą zmianę w rozwoju sztucznej inteligencji. Zamiast podążać za branżowym podejściem „im więcej, tym lepiej”, firma Hugging Face udowodniła, że staranny projekt architektoniczny i innowacyjna technologia kompresji mogą zapewnić wydajność klasy korporacyjnej w lekkiej obudowie. Może to radykalnie obniżyć barierę wejścia dla firm chcących wdrożyć systemy wizyjne AI.
Przełom w inteligencji wizualnej: objaśnienie zaawansowanej technologii kompresji SmolVLM
Osiągnięcia techniczne za sobą małyvlm Są godne uwagi. Model posiada agresywny system kompresji obrazu, który przetwarza informacje wizualne wydajniej niż jakikolwiek poprzedni model w swojej klasie. „SmolVLM używa 81 tokenów widoku Naukowcy wyjaśnili, że aby zakodować fragmenty obrazu o wymiarach 384 × 384, jest to metoda, która umożliwia modelowi obsługę złożonych zadań wizualnych przy minimalnym nakładzie obliczeniowym.
To innowacyjne podejście wykracza poza obrazy nieruchome. W testach SmolVLM wykazał nieoczekiwane możliwości analizy wideo i uzyskał wynik 27,14% punkt odniesienia cinepileTo stawia go w pozycji konkurencyjnej wśród większych, bardziej zasobochłonnych modeli, co sugeruje, że wydajne architektury sztucznej inteligencji mogą zapewniać większe możliwości, niż wcześniej sądzono.
Przyszłość sztucznej inteligencji w przedsiębiorstwie: dostępność i wydajność
implikacje biznesowe małyvlm Są intensywne. Udostępniając zaawansowane możliwości języka wizji firmom o ograniczonych zasobach obliczeniowych, projekt Hugging Face zasadniczo zdemokratyzował technologię, która wcześniej była zarezerwowana dla gigantów technologicznych i dobrze finansowanych start-upów.
Model ten jest dostępny w trzech wariantach zaprojektowanych z myślą o spełnieniu różnych wymagań przedsiębiorstw. Firmy mogą wdrożyć wersję podstawową na potrzeby niestandardowego rozwoju, użyć wersji syntetycznej w celu uzyskania lepszej wydajności lub wdrożyć wersję instruktażową w celu natychmiastowego wdrożenia w aplikacjach przeznaczonych dla klientów.
Wydane pod Licencja Apache 2.0SmolVLM opiera się na zoptymalizowanym pod względem rozmiaru koderze obrazu SigLIP i SmolLM2 do przetwarzania tekstu. Dane szkoleniowe pochodzące ze zbiorów danych The Cauldron i Docmatics zapewniają wysoką wydajność w szerokim zakresie zastosowań biznesowych.
„Nie możemy się doczekać, co społeczność stworzy dzięki SmolVLM” – stwierdził zespół badawczy. Ta otwartość na rozwój społeczności, wraz z obszerną dokumentacją i wsparciem integracyjnym, sugeruje, że SmolVLM może stać się kamieniem węgielnym strategii AI przedsiębiorstwa w nadchodzących latach.
Konsekwencje dla branży AI są znaczące. Ponieważ firmy stają przed rosnącą presją, aby wdrażać rozwiązania AI przy jednoczesnym zarządzaniu kosztami i wpływem na środowisko, wydajna konstrukcja SMOLVLM stanowi atrakcyjną alternatywę dla modeli wymagających dużych zasobów. Może to oznaczać początek nowej ery sztucznej inteligencji w przedsiębiorstwach, gdzie wydajność i dostępność nie wykluczają się już wzajemnie.
model jest dostępne natychmiast Dzięki platformie Hugging Face, która może zmienić sposób, w jaki firmy podchodzą do wdrażania wizualnej sztucznej inteligencji w roku 2024 i później.
Source link