Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej
Ponieważ plotki i raporty wciąż krążą Wyzwania, przed którymi stoją czołowe firmy zajmujące się sztuczną inteligencją, opracowując nowe, potężniejsze modele dużych języków (LLM)Uwaga coraz bardziej skupia się na alternatywnych architekturach zwanych „transformatorami” – technologii leżącej u podstaw obecnego boomu generatywnej sztucznej inteligencji, którą badacze Google przedstawili w przełomowym artykule z 2017 roku.Wszystko czego potrzebujesz to uwaga.,
Jak opisano w tym artykule i później, Transformer to architektura sieci neuronowej głębokiego uczenia się, która przetwarza dane sekwencyjne, takie jak tekst lub informacje o szeregach czasowych.
Teraz ma to urodzony w MIT startup Liquid AI Wprowadzono STAR (Syntezę srebrzonych architektur).Innowacyjny framework przeznaczony do automatyzacji generowania i optymalizacji architektur modeli AI.
Struktura STAR wykorzystuje algorytmy ewolucyjne i system kodowania numerycznego, aby sprostać złożonemu wyzwaniu, jakim jest zrównoważenie jakości i wydajności w modelach głębokiego uczenia się.
Według zespołu badawczego Liquid AI, w skład którego wchodzą Armin W. Thomas, Rom Parnichkun, Alexander Amini, Stefano Massaroli i Michael Poli, podejście STAR stanowi odejście od tradycyjnych metod projektowania architektonicznego.
Zamiast polegać na ręcznym dostrajaniu lub predefiniowanych szablonach, Star wykorzystuje technikę kodowania hierarchicznego – zwaną „Gwiezdnym Genomem” – w celu zbadania ogromnej przestrzeni projektowej możliwych architektur.
Umożliwiają one iteracyjne procesy optymalizacji, takie jak rekombinacja i mutacje genomu, umożliwiając STAR syntezę i udoskonalanie architektur dostosowanych do określonych wskaźników i wymagań sprzętowych.
Zmniejszenie rozmiaru pamięci podręcznej o 90% w porównaniu z tradycyjnym transformatorem ML
Początkowo Liquid AI w STAR skupiało się na autoregresyjnym modelowaniu języka, czyli obszarze, w którym od dawna dominuje tradycyjna architektura Transformera.
W testach przeprowadzonych w trakcie badań zespół badawczy Liquid AI wykazał zdolność STAR do generowania architektur, które konsekwentnie przewyższają wysoce zoptymalizowane modele Transformer++ i modele hybrydowe.
Na przykład, podczas optymalizacji pod kątem jakości i rozmiaru pamięci podręcznej, architektura opracowana przez Star osiągnęła redukcję rozmiaru pamięci podręcznej nawet o 37% w porównaniu z modelem hybrydowym i aż do 90% w porównaniu z Transformerem. Pomimo tej poprawy wydajności modele generowane gwiazdami utrzymały lub przekroczyły przewidywaną wydajność swoich odpowiedników.
Podobnie, w przypadku zadania optymalizacji pod kątem jakości i rozmiaru modelu, STAR zmniejszył liczbę parametrów o 13%, poprawiając wydajność w standardowych testach porównawczych.
Badanie podkreśliło również zdolność Star do skalowania swoich projektów. Model opracowany w ramach projektu STAR skalowany od 125 milionów do 1 miliarda parametrów dał porównywalne lub lepsze wyniki z istniejącymi modelami Transformer++ i hybrydowymi, a także znacznie zmniejszył wymagania dotyczące pamięci podręcznej wnioskowania.
Reengineering architektury modelu AI
Według Liquid AI Star jest zakorzeniony w filozofii projektowania, która obejmuje zasady systemów dynamicznych, przetwarzania sygnałów i numerycznej algebry liniowej.
To podstawowe podejście umożliwiło zespołowi opracowanie wszechstronnej przestrzeni poszukiwań jednostek obliczeniowych, obejmującej takie komponenty, jak mechanizmy uwagi, iteracja i splot.
Jedną z wyróżniających cech STAR jest jego modułowość, która pozwala frameworkowi kodować i dostosowywać architekturę na wielu poziomach hierarchicznych. Ta funkcja zapewnia wgląd w powtarzające się motywy projektowe i umożliwia badaczom identyfikację skutecznych kombinacji elementów architektonicznych.
Co dalej z gwiazdą?
Zdolność projektu STAR do syntezy wydajnych architektur o wysokiej wydajności ma potencjalne zastosowania wykraczające daleko poza modelowanie języków. Płynna sztuczna inteligencja wykorzystuje tę strukturę do rozwiązywania problemów w różnych dziedzinach, w których kompromis między jakością a wydajnością obliczeniową ma kluczowe znaczenie.
Chociaż Liquid AI nie ujawniło jeszcze konkretnych planów komercyjnego wdrożenia ani cen, wyniki badań wskazują na znaczny postęp w dziedzinie zautomatyzowanego projektowania architektury. Dla badaczy i programistów chcących zoptymalizować systemy sztucznej inteligencji model STAR może stanowić potężne narzędzie do przesuwania granic wydajności i efektywności.
Dzięki otwartemu podejściu badawczemu firma Liquid AI opublikowała wyniki Pełne informacje na temat STAR w recenzowanym artykuleZachęcanie do współpracy i dalszych innowacji. W miarę ewolucji krajobrazu sztucznej inteligencji platformy takie jak STAR mogą odegrać kluczową rolę w kształtowaniu następnej generacji inteligentnych systemów. STAR może także zwiastować narodziny nowego boomu na architekturę po Transformatorze – mile widziany prezent na zimowe wakacje dla społeczności badawczej zajmującej się uczeniem maszynowym i sztuczną inteligencją.
Source link