Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


kompleksowy nowa ankieta Badacze firmy Microsoft i partnerzy akademiccy pokazują, że agenci sztucznej inteligencji korzystający z dużych modeli językowych (LLM) mają coraz większe możliwości kontrolowania graficznych interfejsów użytkownika (GUI), potencjalnie umożliwiając ludziom interakcję z oprogramowaniem. Zmiana sposobu.

Technologia ta zasadniczo daje systemom sztucznej inteligencji możliwość przeglądania interfejsów komputera i manipulowania nimi tak jak robią to ludzie – klikania przycisków, wypełniania formularzy i nawigowania między aplikacjami. Zamiast wymagać od użytkowników nauki złożonych poleceń oprogramowania, ci „agenci GUI” mogą interpretować żądania w języku naturalnym i automatycznie wykonywać niezbędne zadania.

„Agenci ci reprezentują zmianę paradygmatu, umożliwiając użytkownikom wykonywanie złożonych, wieloetapowych zadań za pomocą prostych poleceń konwersacyjnych” – stwierdzili naukowcy. Pisać„Ich aplikacje obejmują nawigację w Internecie, interakcje w aplikacjach mobilnych i automatyzację komputerów stacjonarnych, zapewniając użytkownikom rewolucyjne doświadczenie, które rewolucjonizuje sposób interakcji użytkowników z oprogramowaniem”.

Pomyśl o tym jak o wysoko wykwalifikowanym asystencie wykonawczym, który może w Twoim imieniu obsługiwać dowolny program. Po prostu mówisz asystentowi, co chcesz osiągnąć, a on zajmuje się wszystkimi szczegółami technicznymi związanymi z realizacją tego celu.

Ten harmonogram pokazuje szybki rozwój agentów sztucznej inteligencji zdolnych do kontrolowania oprogramowania, a począwszy od 2023 r. pojawią się nowe modele opracowane przez badaczy i firmy technologiczne, sklasyfikowane według ich zastosowań na platformach internetowych, mobilnych i komputerowych. (Źródło: arxiv.org)

Pojawienie się asystentów AI dla przedsiębiorstw zmienia wszystko

Największe firmy technologiczne już ścigają się, aby włączyć te możliwości do swoich produktów. Microsoftu moc automatyczna Wykorzystuje LLM, aby pomóc użytkownikom tworzyć zautomatyzowane przepływy pracy w aplikacjach. firmy Asystent AI drugiego pilota Może bezpośrednio sterować oprogramowaniem w oparciu o polecenia tekstowe. Funkcja wykorzystania obliczeń Anthropic w chmurze umożliwia sztuczną inteligencję interakcję z interfejsami internetowymi i wykonywanie złożonych zadań. Podobno Google się rozwija projekt jarvisaSystem sztucznej inteligencji, który wykorzystywałby przeglądarkę Chrome do wykonywania zadań internetowych, takich jak wyszukiwanie informacji, robienie zakupów i rezerwowanie podróży, chociaż ta funkcja jest wciąż w fazie rozwoju i nie została publicznie udostępniona.

W artykule zauważono: „Pojawienie się dużych modeli językowych, zwłaszcza modeli multimodalnych, zapoczątkowało nową erę automatyzacji GUI”. „Wykazali niezwykłe zdolności w rozumieniu języka naturalnego, generowaniu kodu, generalizowaniu zadań i przetwarzaniu wizualnym”.

Reprezentuje zdolność Szansa rynkowa o wartości 68,9 miliarda dolarów Według analityków BCC Research do 2028 roku przedsiębiorstwa będą chciały automatyzować powtarzalne zadania i zwiększać dostępność oprogramowania dla użytkowników nietechnicznych. Przewiduje się, że rynek wzrośnie z 8,3 miliarda dolarów do osiągnięcia tej wartości w 2022 r., przy złożonej rocznej stopie wzrostu (CAGR) wynoszącej 43,9% w okresie prognozy.

Wpływ na przedsiębiorstwo: wyzwania i możliwości w automatyzacji sztucznej inteligencji

Jednakże zanim technologia będzie mogła zostać powszechnie zastosowana w przedsiębiorstwach, nadal istnieją znaczne przeszkody. Badacze identyfikują kilka kluczowych ograniczeń, m.in Obawy dotyczące prywatności Gdy agenci obsługują wrażliwe dane, pojawiają się ograniczenia wydajności obliczeniowej oraz potrzeba lepszych gwarancji bezpieczeństwa i niezawodności.

W odniesieniu do wcześniejszych podejść do automatyzacji w artykule stwierdzono: „Chociaż są skuteczne w przypadku predefiniowanych przepływów pracy, metodom tym brakuje elastyczności i możliwości adaptacji potrzebnych w dynamicznych, rzeczywistych aplikacjach”.

Zespół badawczy przedstawia szczegółowy plan działania umożliwiający sprostanie tym wyzwaniom, podkreślając znaczenie opracowania bardziej wydajnych modeli, które można uruchamiać lokalnie na urządzeniach, wdrożenia solidnych środków bezpieczeństwa i wykorzystania standardowych ram oceny Can Build.

„Dzięki zabezpieczeniom i konfigurowalnym funkcjom agenci ci zapewniają wydajność i bezpieczeństwo podczas obsługi złożonych zamówień” – stwierdzili naukowcy, podkreślając najnowsze postępy w przygotowywaniu tej technologii do zastosowań w przedsiębiorstwach.

Dla liderów technologii dla przedsiębiorstw pojawienie się agentów GUI opartych na LLM stanowi zarówno szansę, jak i kwestię strategiczną. Chociaż technologia ta obiecuje znaczny wzrost produktywności dzięki automatyzacji, organizacje będą musiały dokładnie ocenić konsekwencje dla bezpieczeństwa i wymagania infrastrukturalne związane z wdrażaniem tych systemów sztucznej inteligencji.

W artykule stwierdzono: „Dziedzina agentów GUI zmierza w kierunku architektur wieloagentowych, możliwości multimodalnych, różnorodnych zestawów działań i nowatorskich strategii podejmowania decyzji”. „Te innowacje stanowią ważny krok w kierunku stworzenia inteligentnych, elastycznych agentów, zdolnych do wysokiej wydajności w zróżnicowanych i dynamicznych środowiskach”.

Eksperci branżowi szacują, że co najmniej do 2025 roku 60% dużych przedsiębiorstw Wdrożona zostanie pewna forma agentów automatyzacji GUI, co potencjalnie doprowadzi do ogromnego wzrostu wydajności, ale także rodzi ważne pytania dotyczące prywatności danych i przenoszenia stanowisk.

Szeroko zakrojone badanie pokazuje, że znajdujemy się w punkcie zwrotnym, w którym konwersacyjne interfejsy sztucznej inteligencji mogą zasadniczo zmienić sposób interakcji człowieka z oprogramowaniem – chociaż aby wykorzystać ten potencjał, konieczne będą ciągłe zmiany zarówno w podstawowej technologii, jak i praktykach wdrażania w przedsiębiorstwach.

„Te zmiany kładą podwaliny pod bardziej wszechstronne i wydajne agenty, które będą w stanie poradzić sobie ze złożonymi, dynamicznymi środowiskami” – podsumowują naukowcy, wskazując na przyszłość, w której asystenci AI będą mogli współpracować z naszymi komputerami .


Source link