Dołącz do naszych codziennych i cotygodniowych biuletynów, aby otrzymywać najnowsze aktualizacje i ekskluzywne treści na temat wiodącego w branży zakresu sztucznej inteligencji. dowiedz się więcej


Przekazywanie danych przedsiębiorstwa do modeli wielkojęzycznych (LLM) to kluczowe zadanie umożliwiające powodzenie wdrożeń sztucznej inteligencji w przedsiębiorstwach.

W tym miejscu sprawdza się generacja wspomagana odzyskiwaniem (RAG), czyli obszar, w którym kilku dostawców oferuje różne rozwiązania. Dzisiaj na konferencji AWS re:invent 2024 firma ogłosiła szereg nowych usług i aktualizacji zaprojektowanych, aby ułatwić przedsiębiorstwom pobieranie ustrukturyzowanych i nieustrukturyzowanych danych do potoków RAG. Udostępnienie danych strukturalnych RAG wymaga czegoś więcej niż tylko patrzenia na wiersz w tabeli. Obejmuje to tłumaczenie zapytań w języku naturalnym na złożone zapytania SQL w celu filtrowania, łączenia tabel i agregowania danych. Wyzwania są jeszcze większe w przypadku danych nieustrukturyzowanych, gdzie z definicji dane nie mają żadnej struktury.

Aby pomóc stawić czoła tym wyzwaniom, AWS ogłosił nowe usługi wsparcia w zakresie wyszukiwania danych strukturalnych, ETL (wyodrębniania, przekształcania i ładowania) dla danych nieustrukturyzowanych, automatyzacji danych i obsługi baz wiedzy.

„Generowanie rozszerzone wyszukiwania (RAG) to bardzo popularna technika optymalizacji danych, ale jednym z wyzwań związanych z generowaniem rozszerzonym wyszukiwania jest to, że w przeszłości dotyczyło to głównie danych tekstowych” – powiedział wiceprezes AI and Data w AWS Swami Sivasubramanian VentureBeat. „A jeśli spojrzysz na przedsiębiorstwa, większość danych, zwłaszcza operacyjnych, znajduje się w jeziorach danych i hurtowniach danych, a one nigdy nie były gotowe na RAG”.

Udoskonalanie obsługi wyszukiwania danych strukturalnych dzięki bazie wiedzy Amazon Bedrock

Dlaczego dane strukturalne nie są gotowe na RAG? Sivasubramaniam przedstawił kilka scenariuszy.

Sivasubramanian powiedział: „Aby zbudować bardzo dokładny i bezpieczny system, trzeba naprawdę zrozumieć schemat, utworzyć niestandardowe osadzenie schematu, a następnie naprawdę zrozumieć historyczne dzienniki zapytań, a następnie nadążać za zmianami i schematem. „

Podczas swojego przemówienia na konferencji re:Invent Sivasubramanian wyjaśnił, że usługa bazy wiedzy Amazon Bedrock to w pełni zarządzana funkcja RAG, która umożliwia przedsiębiorstwom dostosowywanie odpowiedzi na podstawie kontekstowych i odpowiednich danych.

„Automatyzuje cały przepływ pracy RAG, eliminując potrzebę pisania niestandardowego kodu w celu integracji źródeł danych i zarządzania zapytaniami” – powiedział.

Sivasubramaniam powiedział, że AWS zapewnia w pełni zarządzane rozwiązanie RAG ze wsparciem w zakresie wyszukiwania strukturalnych danych w bazie wiedzy Amazon Bedrock. Umożliwia przedsiębiorstwom bezproblemowe wysyłanie zapytań do wszystkich ustrukturyzowanych danych w celu generowania wyników dla ogólnych aplikacji AI. Baza wiedzy automatycznie wygeneruje i wykona zapytania SQL w celu pobrania danych przedsiębiorstwa, a następnie wzbogaci odpowiedzi modelu.

„Miłą rzeczą jest to, że dostosowuje się również do Twojego schematu i danych, uczy się na podstawie wzorców zapytań i oferuje opcje dostosowywania w celu zwiększenia dokładności” – powiedział. „Teraz dzięki możliwości łatwego dostępu do ustrukturyzowanych danych RAG będziesz generować wydajniejsze i inteligentniejsze aplikacje ogólnej sztucznej inteligencji w całym przedsiębiorstwie”.

GraphFrag: połączenie tego wszystkiego w jednym wykresie wiedzy

Kolejnym kluczowym wyzwaniem związanym ze sztuczną inteligencją dla przedsiębiorstw, które AWS chce rozwiązać dla RAG, jest pomoc w poprawie dokładności dzięki większej liczbie źródeł danych. Oto wyzwanie, któremu stara się sprostać nowa funkcja GraphRAG.

„Jednym z największych wyzwań w przedsiębiorstwach jest oddzielenie odrębnych fragmentów danych i pokazanie, w jaki sposób są one połączone, aby można było zbudować zrozumiałe systemy RAG” – powiedział Sivasubramaniam. „W tym miejscu wykresy wiedzy są niezwykle ważne”.

Sivasubramaniam wyjaśnił, że wykresy wiedzy tworzą relacje między wieloma źródłami danych, łącząc różne fragmenty informacji.

„Kiedy te relacje zostaną przekształcone w osadzane wykresy dla ogólnych aplikacji AI, system może z łatwością przeglądać ten wykres i pobierać te połączenia, aby uzyskać całościowy obraz danych klientów” – powiedział.

Nowe możliwości GraphRAG w bazie wiedzy Amazon Bedrock automatycznie generują wykresy przy użyciu usługi bazy danych Amazon Neptune Graph Database. Sivasubramanian stwierdził, że łączy relacje między różnymi źródłami danych, tworząc bardziej wszechstronne, ogólne aplikacje AI bez konieczności posiadania wiedzy na temat wykresów.

Stawianie czoła wyzwaniom związanym z danymi nieustrukturyzowanymi dzięki Amazon Bedrock Data Automation

Kolejnym ważnym wyzwaniem dotyczącym danych w przedsiębiorstwie jest kwestia danych nieustrukturyzowanych. Jest to problem, który próbuje rozwiązać wielu dostawców, w tym start-upy takie jak Anomalo.

Kiedy dane, niezależnie od tego, czy są to pliki PDF, pliki audio czy wideo, wymagają indeksowania pod kątem zastosowań RAG, ważne jest, aby w pewnym stopniu zrozumieć, co zawierają dane, aby były przydatne.

„Niestety dane nieustrukturyzowane są trudne do wyodrębnienia i należy je przetworzyć i przekształcić, aby stały się przydatne” – powiedział Sivasubramanian.

Nowa technologia Amazon Bedrock Data Automation jest odpowiedzią AWS na to wyzwanie. Sivasubramaniam wyjaśnił, że ta funkcja automatycznie przekształci nieustrukturyzowaną treść składającą się z wielu modeli w ustrukturyzowane dane na potrzeby ogólnych aplikacji AI.

„Lubię o tym myśleć jak o ETL nowej generacji (wyodrębnianie, przekształcanie i ładowanie) oparty na sztucznej inteligencji dla danych nieustrukturyzowanych” – powiedział.

Amazon Bedrock Data Automation automatycznie wyodrębni, przekształci i przetworzy multimodalną zawartość przedsiębiorstwa na dużą skalę. Powiedział, że za pomocą jednego interfejsu API przedsiębiorstwo może generować niestandardowe wyniki, dopasowywać je do schematu danych i analizować treści multimodalne na potrzeby aplikacji GenAI.

„Dzięki tym aktualizacjom umożliwiamy wykorzystanie wszystkich danych do tworzenia bardziej odpowiednich aplikacji Gen AI” – powiedział.


Source link