Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Z firmy-matki TikTok wyłonił się nowy agent AI, który ma przejąć kontrolę nad Twoim komputerem i wykonywać złożone przepływy pracy.

Podobnie jak użycie komputera przez Anthropic, nowy UI-TARS firmy ByteDance rozumie graficzne interfejsy użytkownika (GUI), stosuje logikę i podejmuje autonomiczne, krok po kroku działania.

Wyszkoleni na około 50B tokenach i oferowani w wersjach parametrów 7B i 72B, agenci PC/MacOS osiągają najnowocześniejszą wydajność (SOTA) w ponad 10 testach porównawczych GUI pod względem wydajności, percepcji, uziemienia i ogólnych możliwości agenta, niezmiennie wiodąc. OpenAI GPT-4o, Cloud i Google Gemini.

„Dzięki szkoleniu iteracyjnemu i refleksyjnemu dostrajaniu UI-TARS stale uczy się na swoich błędach i dostosowuje się do nieoczekiwanych sytuacji przy minimalnej interwencji człowieka” – napisali w artykule naukowcy z ByteDance i Tsinghua University. nowy artykuł naukowy,

źródło: arXiv

Jak UI-TARS wyjaśnia swój sposób myślenia?

UI-TARS działa w aplikacjach komputerowych, mobilnych i internetowych, wykorzystując multimodalne dane wejściowe (tekst, obrazy, interakcje) w celu zrozumienia środowisk wizualnych.

Jego interfejs użytkownika składa się z dwóch zakładek – jednej po lewej stronie, pokazującej „myślenie” krok po kroku, oraz większej po prawej, gdzie pobiera pliki, strony internetowe i aplikacje oraz automatycznie wykonuje czynności.

Na przykład w opublikowanym dzisiaj filmie demonstracyjnym modelkę poproszono o „znalezienie lotów w obie strony z SEA do Nowego Jorku piątego dnia i powrót 10 dnia następnego miesiąca oraz przefiltrowanie według ceny w kolejności rosnącej”.

W odpowiedzi UI-TARS przechodzi do witryny internetowej Delta Airlines, wypełnia pola „od” i „od”, klika odpowiednie daty i typy oraz filtruje według ceny, wychodząc poza swoje pole do myślenia przed podjęciem działania. Wyjaśnia każdy krok .

W drugim scenariuszu znajdują się instrukcje dotyczące instalowania rozszerzenia AutoDocString w VS Code. Oto sposób myślenia krok po kroku podczas realizacji tego zadania:

  • Najpierw pojawia się informacja, że ​​„Aby kontynuować instalację rozszerzenia AutoDocString w VS Code, muszę najpierw otworzyć aplikację VS Code”.
  • Modelka potwierdzając, że okno VS Code nie zostało w pełni załadowane, zauważa, że ​​„przed przystąpieniem do instalacji rozszerzenia AutoDocString należy poczekać na inicjalizację aplikacji. Dzięki temu w kolejnych krokach dostępne będą wszystkie wymagane funkcjonalności”.
  • Następnie informuje go, że musi uzyskać dostęp do widoku Rozszerzenia w VS Code, co można zrobić, klikając kartę na lewym pasku bocznym.
  • Wystąpił drobny błąd, którego przyczyna jest następująca: „Poprzednia próba kliknięcia karty „Rozszerzenia” mogła nie być wystarczająco dokładna, więc spróbuję kliknąć ją ponownie, aby upewnić się, że widok Rozszerzenia zostanie pomyślnie otwarty”. .”
  • Po wejściu do widoku rozszerzeń wpisuje „autodocstring” i stwierdza: „Ponieważ proces instalacji już się rozpoczął, w tym momencie nie są wymagane żadne dalsze działania. Poczekam na zakończenie instalacji i potwierdzę jej sukces po zakończeniu procesu.

Działa lepiej niż konkurencja

W różnych testach badacze podali, że UI-TARS konsekwentnie osiąga lepsze wyniki niż GPT-4o OpenAI; Anthropic Cloud-3.5-Sonnet; Gemini-1.5-Pro ​​i Gemini-2.0; Cztery modele Quen; i wiele modeli edukacyjnych.

Na przykład w VisualWebBench – który mierzy zdolność modelu do uziemiania elementów sieciowych, w tym zapewniania jakości strony internetowej i optycznego rozpoznawania znaków – UI-TARS 72B uzyskał 82,8% w porównaniu do GPT-4O (78,5%) i Cloud 3.5 (78,2%).

Wypadł także znacznie lepiej w testach WebSRC (zrozumienie treści semantycznej i układu w kontekstach internetowych) i ScreenQA-Short (zrozumienie złożonych układów ekranów mobilnych i struktury sieci). UI-TARS-7b osiągnął wiodący wynik 93,6% w WebSRC, podczas gdy UI-TARS-72b osiągnął 88,6% w ScreenQA-Short i wyprzedził QUEN, Gemini, Cloud 3.5 i GPT-4O.

„Te wyniki pokazują doskonałe możliwości percepcji i zrozumienia UI-TARS w środowiskach internetowych i mobilnych” – napisali naukowcy. „Takie zdolności percepcyjne stanowią podstawę funkcji agenta, w przypadku których dokładne zrozumienie środowiska ma kluczowe znaczenie dla wykonywania zadań i podejmowania decyzji”.

UI-TARS wykazało także imponujące wyniki w programach ScreenSpot Pro i ScreenSpot v2, które oceniają zdolność modelu do zrozumienia i zlokalizowania elementów w graficznym interfejsie użytkownika. Dodatkowo badacze przetestowali jego możliwości w planowaniu zadań wieloetapowych i zadań niskiego poziomu w środowisku mobilnym i sklasyfikowano go wśród OSWorld (ocena otwartych zadań komputerowych) i AndroidWorld (ocena 20 aplikacji mobilnych. Ocenia autonomicznych agentów na 116 zadań programowych). ,

źródło: arXiv
źródło: arXiv

pod maską

Aby pomóc mu w podejmowaniu działań krok po kroku i rozpoznawaniu tego, co widzi, UI-TARS został przeszkolony na ogromnym zbiorze danych składającym się ze zrzutów ekranu, w tym opisów i typów elementów, opisów widoków, obwiedni (informacje o pozycji), przeanalizowano metadane, w tym funkcje elementów . oraz teksty z różnych witryn internetowych, aplikacji i systemów operacyjnych. Dzięki temu model może zapewnić kompleksowy, szczegółowy opis zrzutu ekranu, przechwytując nie tylko elementy, ale także relacje przestrzenne i ogólny układ.

Model wykorzystuje również podpisy przejść stanu, aby zidentyfikować i opisać różnicę między dwoma kolejnymi zrzutami ekranu oraz określić, czy wystąpiła akcja – taka jak kliknięcie myszą lub wprowadzenie klawiatury. Tymczasem podpowiadanie zestawu znaków (SOM) umożliwia nakładanie różnych znaków (liter, cyfr) na określone obszary obrazu.

Model jest wyposażony zarówno w pamięć krótkotrwałą, jak i długoterminową, umożliwiającą obsługę bieżących zadań, zachowując jednocześnie interakcje historyczne w celu usprawnienia późniejszego podejmowania decyzji. Naukowcy wytrenowali model tak, aby rozumował zarówno w Systemie 1 (szybkim, automatycznym i intuicyjnym), jak i w Systemie 2 (powolnym i przemyślanym). Umożliwia wieloetapowe podejmowanie decyzji, myślenie „refleksyjne”, identyfikację kamieni milowych i korekcję błędów.

Naukowcy podkreślili, że ważne jest, aby model był w stanie utrzymać spójne cele i stosować metodę prób i błędów w celu stawiania hipotez, testowania i oceny potencjalnych działań przed zaangażowaniem się w zadanie. Aby to potwierdzić, wprowadził dwa typy danych: korekcję błędów i dane po odbiciu. W celu skorygowania błędów zidentyfikowali błędy i oznaczyli działania naprawcze; Na potrzeby postkontemplacji symulowali etapy zdrowienia.

„Ta strategia gwarantuje, że agent nie tylko nauczy się unikać błędów, ale także dynamicznie dostosowuje się, gdy one wystąpią” – piszą naukowcy.

Bez wątpienia UI-TARS wykazuje imponujące możliwości i ciekawie będzie zobaczyć rosnące przypadki jego użycia w dziedzinie coraz bardziej konkurencyjnych agentów AI. Jak zauważają badacze: „Patrząc w przyszłość, choć rodzimi agenci stanowią znaczący krok naprzód, przyszłość leży w integracji aktywnego uczenia się i uczenia się przez całe życie, w ramach którego agenci samodzielnie dowiadują się o swojej własnej nauce.

Naukowcy zwracają uwagę, że korzystanie z komputera w chmurze „spisuje się znakomicie w zadaniach internetowych, ale znacznie gorzej sprawdza się w scenariuszach mobilnych, co wskazuje, że możliwości operacyjne GUI chmury nie przekładają się dobrze na domenę mobilną”.

Natomiast „UI-TARS wykazuje doskonałą wydajność zarówno w domenach internetowych, jak i mobilnych”.


Source link