LanceDB, dla którego Midjourney jest klientem, buduje bazy danych dla multimodalnej sztucznej inteligencji

Chang She, wcześniej wiceprezes ds. inżynierii w Tubi i weteran Cloudera, ma wieloletnie doświadczenie w tworzeniu narzędzi i infrastruktury do przetwarzania danych. Ale kiedy zaczęła pracować w przestrzeni AI, szybko napotkał problemy z tradycyjną infrastrukturą danych – problemy, które uniemożliwiły mu wprowadzenie modeli AI do produkcji.

„Inżynierowie zajmujący się uczeniem maszynowym i badacze sztucznej inteligencji często mają kiepskie doświadczenie w programowaniu” – powiedziała w wywiadzie dla TechCrunch. „Firmy zajmujące się infrastrukturą danych tak naprawdę nie rozumieją problemu związanego z danymi uczenia maszynowego na podstawowym poziomie”.

Dlatego Chang — jeden ze współtwórców Pandas, niezwykle popularnej biblioteki do nauki danych w języku Python — połączył siły z inżynierem oprogramowania Lei Xu, aby wspólnie uruchomić LanceDB.

LanceDB tworzy tytułowe oprogramowanie bazy danych typu open source LanceDB, które ma obsługiwać multimodalne modele sztucznej inteligencji — modele, które oprócz tekstu trenują i generują obrazy, filmy i nie tylko. Dzięki wsparciu Y Combinator firma LanceDB zebrała w tym miesiącu 8 milionów dolarów w rundzie finansowania zalążkowego prowadzonej przez CRV, Essence VC i Swift Ventures, zwiększając łączną kwotę do 11 milionów dolarów.

„Jeśli multimodalna sztuczna inteligencja ma kluczowe znaczenie dla przyszłego sukcesu Twojej firmy, chcesz, aby Twój bardzo kosztowny zespół ds. sztucznej inteligencji skupił się na modelu i połączeniu sztucznej inteligencji z wartością biznesową” – powiedział Chang. „Niestety obecnie zespoły zajmujące się sztuczną inteligencją spędzają większość czasu zajmując się szczegółami infrastruktury danych niskiego poziomu. LanceDB zapewnia podstawy, których potrzebują zespoły AI, dzięki czemu mogą swobodnie skupić się na tym, co naprawdę ma znaczenie dla wartości przedsiębiorstwa i wprowadzać produkty AI na rynek znacznie szybciej, niż jest to możliwe w innym przypadku”.

LanceDB to zasadniczo baza danych wektorów — baza danych zawierająca serie liczb („wektory”), które kodują znaczenie danych nieustrukturyzowanych (np. obrazów, tekstu itp.).

Jak niedawno napisał mój kolega Paul Sawers: bazy danych wektorowych przeżywają moment, w którym cykl szumu AI osiąga szczyt. Dzieje się tak, ponieważ są przydatne we wszystkich zastosowaniach sztucznej inteligencji, od rekomendacji treści w handlu elektronicznym i na platformach mediów społecznościowych po redukcję halucynacje.

Konkurencja w zakresie wektorowych baz danych jest zacięta — zobacz Qdrant, Vespa, Weaviate, Pinecone i Chroma, aby wymienić kilku dostawców (nie licząc Duży Tech urzędnicy). Co zatem sprawia, że ​​LanceDB jest wyjątkowy? Według Changa lepsza elastyczność, wydajność i skalowalność.

Po pierwsze, Chang mówi, LanceDB — który jest zbudowany na bazie Strzała Apacza — jest obsługiwany przez niestandardowy format danych, Lance Format, zoptymalizowany pod kątem multimodalnego szkolenia i analiz AI. Lance Format umożliwia LanceDB obsługę nawet miliardów wektorów i petabajtów tekstu, obrazów i filmów oraz umożliwia inżynierom zarządzanie różnymi formami metadanych powiązanych z tymi danymi.

„Do tej pory nie było systemu, który łączyłby szkolenie, eksplorację, wyszukiwanie i przetwarzanie danych na dużą skalę” – powiedział Chang. „Lance Format pozwala badaczom i inżynierom zajmującym się sztuczną inteligencją mieć jedno źródło prawdy i uzyskać błyskawiczną wydajność w całym procesie sztucznej inteligencji. Nie chodzi tylko o przechowywanie wektorów.”

LanceDB zarabia, sprzedając w pełni zarządzane wersje swojego oprogramowania open source z dodatkowymi funkcjami, takimi jak przyspieszanie sprzętowe i kontrola zarządzania, a biznes wydaje się dobrze prosperować. Na liście klientów firmy znajdują się platforma zamiany tekstu na obraz Midjourney, chatbot unicorn Character.ai, start-up samochodów autonomicznych WeRide i Airtable.

Chang upierał się, że niedawne wsparcie VC LanceDB nie odwróci jego uwagi od projektu open source, który, jego zdaniem, jest obecnie pobierany około 600 000 miesięcznie.

„Chcieliśmy stworzyć coś, co 10 razy ułatwiłoby zespołom AI pracę z wielkoskalowymi danymi multimodalnymi” – powiedział. „LanceDB oferuje — i będzie nadal oferować — bardzo bogaty zestaw integracji ekosystemów, aby zminimalizować wysiłki związane z wdrażaniem”.

źródło