Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Ponieważ plotki i raporty wciąż krążą Wyzwania, przed którymi stoją czołowe firmy zajmujące się sztuczną inteligencją, opracowując nowe, potężniejsze modele dużych języków (LLM)Uwaga coraz bardziej skupia się na alternatywnych architekturach zwanych „transformatorami” – technologii leżącej u podstaw obecnego boomu generatywnej sztucznej inteligencji, którą badacze Google przedstawili w przełomowym artykule z 2017 roku.Wszystko czego potrzebujesz to uwaga.,

Jak opisano w tym artykule i później, Transformer to architektura sieci neuronowej głębokiego uczenia się, która przetwarza dane sekwencyjne, takie jak tekst lub informacje o szeregach czasowych.

Teraz ma to urodzony w MIT startup Liquid AI Wprowadzono STAR (Syntezę srebrzonych architektur).Innowacyjny framework przeznaczony do automatyzacji generowania i optymalizacji architektur modeli AI.

Struktura STAR wykorzystuje algorytmy ewolucyjne i system kodowania numerycznego, aby sprostać złożonemu wyzwaniu, jakim jest zrównoważenie jakości i wydajności w modelach głębokiego uczenia się.

Według zespołu badawczego Liquid AI, w skład którego wchodzą Armin W. Thomas, Rom Parnichkun, Alexander Amini, Stefano Massaroli i Michael Poli, podejście STAR stanowi odejście od tradycyjnych metod projektowania architektonicznego.

Zamiast polegać na ręcznym dostrajaniu lub predefiniowanych szablonach, Star wykorzystuje technikę kodowania hierarchicznego – zwaną „Gwiezdnym Genomem” – w celu zbadania ogromnej przestrzeni projektowej możliwych architektur.

Umożliwiają one iteracyjne procesy optymalizacji, takie jak rekombinacja i mutacje genomu, umożliwiając STAR syntezę i udoskonalanie architektur dostosowanych do określonych wskaźników i wymagań sprzętowych.

Zmniejszenie rozmiaru pamięci podręcznej o 90% w porównaniu z tradycyjnym transformatorem ML

Początkowo Liquid AI w STAR skupiało się na autoregresyjnym modelowaniu języka, czyli obszarze, w którym od dawna dominuje tradycyjna architektura Transformera.

W testach przeprowadzonych w trakcie badań zespół badawczy Liquid AI wykazał zdolność STAR do generowania architektur, które konsekwentnie przewyższają wysoce zoptymalizowane modele Transformer++ i modele hybrydowe.

Na przykład, podczas optymalizacji pod kątem jakości i rozmiaru pamięci podręcznej, architektura opracowana przez Star osiągnęła redukcję rozmiaru pamięci podręcznej nawet o 37% w porównaniu z modelem hybrydowym i aż do 90% w porównaniu z Transformerem. Pomimo tej poprawy wydajności modele generowane gwiazdami utrzymały lub przekroczyły przewidywaną wydajność swoich odpowiedników.

Podobnie, w przypadku zadania optymalizacji pod kątem jakości i rozmiaru modelu, STAR zmniejszył liczbę parametrów o 13%, poprawiając wydajność w standardowych testach porównawczych.

Badanie podkreśliło również zdolność Star do skalowania swoich projektów. Model opracowany w ramach projektu STAR skalowany od 125 milionów do 1 miliarda parametrów dał porównywalne lub lepsze wyniki z istniejącymi modelami Transformer++ i hybrydowymi, a także znacznie zmniejszył wymagania dotyczące pamięci podręcznej wnioskowania.

Reengineering architektury modelu AI

Według Liquid AI Star jest zakorzeniony w filozofii projektowania, która obejmuje zasady systemów dynamicznych, przetwarzania sygnałów i numerycznej algebry liniowej.

To podstawowe podejście umożliwiło zespołowi opracowanie wszechstronnej przestrzeni poszukiwań jednostek obliczeniowych, obejmującej takie komponenty, jak mechanizmy uwagi, iteracja i splot.

Jedną z wyróżniających cech STAR jest jego modułowość, która pozwala frameworkowi kodować i dostosowywać architekturę na wielu poziomach hierarchicznych. Ta funkcja zapewnia wgląd w powtarzające się motywy projektowe i umożliwia badaczom identyfikację skutecznych kombinacji elementów architektonicznych.

Co dalej z gwiazdą?

Zdolność projektu STAR do syntezy wydajnych architektur o wysokiej wydajności ma potencjalne zastosowania wykraczające daleko poza modelowanie języków. Płynna sztuczna inteligencja wykorzystuje tę strukturę do rozwiązywania problemów w różnych dziedzinach, w których kompromis między jakością a wydajnością obliczeniową ma kluczowe znaczenie.

Chociaż Liquid AI nie ujawniło jeszcze konkretnych planów komercyjnego wdrożenia ani cen, wyniki badań wskazują na znaczny postęp w dziedzinie zautomatyzowanego projektowania architektury. Dla badaczy i programistów chcących zoptymalizować systemy sztucznej inteligencji model STAR może stanowić potężne narzędzie do przesuwania granic wydajności i efektywności.

Dzięki otwartemu podejściu badawczemu firma Liquid AI opublikowała wyniki Pełne informacje na temat STAR w recenzowanym artykuleZachęcanie do współpracy i dalszych innowacji. W miarę ewolucji krajobrazu sztucznej inteligencji platformy takie jak STAR mogą odegrać kluczową rolę w kształtowaniu następnej generacji inteligentnych systemów. STAR może także zwiastować narodziny nowego boomu na architekturę po Transformatorze – mile widziany prezent na zimowe wakacje dla społeczności badawczej zajmującej się uczeniem maszynowym i sztuczną inteligencją.


Source link