Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Organizacje zainteresowane wdrażaniem agentów AI muszą najpierw je dobrze przygotować, szczególnie w przypadku przepływów pracy, które często wydają się rutynowe. Chociaż niektóre organizacje chcą, aby agenci wykonywali tylko jeden typ zadań w ramach jednego przepływu pracy, czasami trzeba ich wprowadzić do nowego środowiska z oczekiwaniem, że się dostosują.

badacze Pekiński Uniwersytet Poczty i Telekomunikacji zaprezentował nową metodę AgentRefine. Uczy agentów samodoskonalenia, co prowadzi do bardziej uogólnionych i adaptacyjnych agentów AI.

Naukowcy stwierdzili, że obecne metody dostrajania ograniczają agentów do zadań podobnych do ich zbioru danych szkoleniowych, czyli zadań „wstrzymywanych”, i nie sprawdzają się tak dobrze w „wstrzymywanych” lub nowych środowiskach. Po prostu przestrzegając zasad określonych na podstawie danych szkoleniowych, agenci przeszkoleni przez te frameworki będą mieli problemy z „uczeniem się” na swoich błędach i nie będzie można ich uogólniać jako agentów i dostosowywać do nowych przepływów pracy.

Aby poradzić sobie z tym ograniczeniem, AgentRefine ma na celu stworzenie bardziej uogólnialnych zbiorów danych szkoleniowych agentów, które umożliwią modelom uczenie się na błędach i dopasowanie do nowych przepływów pracy. w nowej gazecieNaukowcy stwierdzili, że celem AgentRefine jest „opracowanie uogólnionych danych dotyczących dostrajania agentów i ustalenie związku między generalizacją agenta a samodoskonaleniem”. Jeśli agenci dokonają samokorekty, nie zachowają żadnych wyuczonych błędów i nie będą wprowadzać tych samych błędów do innych środowisk, w których są wdrożeni.

„Odkryliśmy, że dostrajanie agentów na podstawie samodoskonalących się danych zwiększa ich zdolność do odkrywania bardziej wykonalnych działań w obliczu złych warunków, co skutkuje lepszą generalizacją na nowe środowiska agentów” – napisali naukowcy.

Szkolenie agentów AI inspirowane D&D

Czerpią wskazówki ze stołowych gier RPG lochy i smoki, Badacze stworzyli persony, scenariusze i wyzwania, których agent miał przestrzegać. I tak, istnieje Mistrz Podziemi (DM).

Podzielił tworzenie danych dla AgentRefine na trzy obszary: tworzenie skryptu, tworzenie trajektorii i walidacja.

Podczas tworzenia skryptu model tworzy skrypt lub przewodnik, który zawiera informacje o środowisku, zadaniach i działaniach, które dana osoba może wykonać. (Naukowcy przetestowali AgentRefine przy użyciu Llama-3-8B-Instruct, Llama-3-70B-Instruct, Mistral-7B-Instruct-v0.3, GPT-4o-mini i GPT-4o)

Następnie model generuje dane agenta, które zawierają błędy i działają zarówno jako DM, jak i gracz podczas fazy trajektorii. Ocenia działania, jakie może podjąć, a następnie sprawdza, czy zawierają one błędy. Ostatnia faza, walidacja, sprawdza skrypty i trajektorie, umożliwiając agentom samodoskonalenie.

Lepsze i bardziej zróżnicowane możliwości pracy

Naukowcy odkryli, że agenci przeszkoleni przy użyciu metody AgentRefine i zestawu danych radzili sobie lepiej z różnymi zadaniami i dostosowywali się do nowych scenariuszy. Agenci ci dalej się doskonalą, przekierowując swoje działania i podejmowanie decyzji, aby uniknąć błędów, i stają się bardziej niezawodni w tym procesie.

W szczególności AgentRefine poprawił wydajność wszystkich modeli pracy z zadaniami, które utknęły w martwym punkcie.

Przedsiębiorstwa muszą sprawić, aby agenci mogli lepiej dostosowywać się do zadań, aby nie powtarzali po prostu tego, czego się nauczyli, aby mogli stać się lepszymi decydentami. Agenci orkiestrujący nie tylko „kierują ruch” do wielu agentów, ale także ustalają, czy agenci wykonali zadania na podstawie żądań użytkowników.

OpenAIo3 zapewnia „syntezę programu”, która może poprawić zdolność dostosowywania zadań. Z innych platform orkiestracji i szkoleń, takich jak magentic-one MicrosoftuPrzełożony ustala zadania dla agentów, aby mogli dowiedzieć się, kiedy przekazać zadania różnym agentom.


Source link