Apple, Anthropic i inne firmy wykorzystały filmy z YouTube do trenowania sztucznej inteligencji

Ponad 170 000 filmów z serwisu YouTube stanowi część ogromnego zbioru danych, który został wykorzystany do szkolenia systemów sztucznej inteligencji w niektórych z największych firm technologicznych, zgodnie z dochodzeniem przeprowadzonym przez Dowód Wiadomości i współpublikował z Przewodowy. Apple, Anthropic, Nvidia i Salesforce to niektóre z firm technologicznych, które wykorzystały dane „YouTube Subtitles”, które zostały zerwane z platformy wideo bez pozwolenia. Zestaw danych szkoleniowych to zbiór napisów pobranych z filmów YouTube należących do ponad 48 000 kanałów — nie obejmuje on obrazów z filmów.

W zestawie danych pojawiają się filmy popularnych twórców, takich jak MrBeast i Marques Brownlee, a także klipy z takich serwisów informacyjnych, jak ABC News, BBC i New York Times. Ponad 100 filmów z Skraj pojawiają się w zestawie danych wraz z wieloma innymi filmami z Głos.

„Apple pozyskało dane dla swojej sztucznej inteligencji od kilku firm” – powiedział Brownlee, znany pod pseudonimem MKBHD. napisał w poście na X„Jeden z nich wyciągnął tony danych/transkrypcji z filmów na YouTube, w tym z moich”. Dodał: „To będzie rozwijający się problem przez długi czas”.

YouTube nie odpowiedział natychmiast Skraj'S prośba o komentarz.

W ramach prowadzonego śledztwa Dowód Wiadomości również wydany interaktywne narzędzie wyszukiwania. Możesz użyć funkcji wyszukiwania, aby sprawdzić, czy Twoja treść — lub treść Twojego ulubionego YouTubera — pojawia się w zestawie danych.

Zestaw danych napisów jest częścią większej kolekcji materiałów z non-profit EleutherAI o nazwie The Pile, kolekcji open-source, która zawiera również zestawy danych książek, artykułów Wikipedii i innych. W zeszłym roku analiza jednego zestawu danych o nazwie Books3 ujawniono, których autorów prace wykorzystano do trenowania systemów AI, a zbiór danych został zacytowany w pozwy sądowe autorów przeciwko firmom, które wykorzystywały ją do szkolenia sztucznej inteligencji.

Firmy AI rzadko chętnie ujawniają dane, które trafiają do ich systemów AI; to, w jaki sposób konkretnie wykorzystywane są treści z YouTube, było kluczowym pytaniem w ostatnich miesiącach. W marcu kiedy OpenAI zaprezentowało swoje potężne narzędzie do generowania wideo, SoraCTO Mira Murati wielokrotnie unikała pytań o to, czy system został przeszkolony w oparciu o filmy z YouTube.

„Nie będę wnikał w szczegóły wykorzystanych danych, ale były to dane publicznie dostępne lub objęte licencją” ona powiedziała Dziennik Wall Street wtedy. Po naciśnięciu Dziennik konkretnie o treściach na YouTube, Murati powiedziała, że ​​„nie była tego pewna”.

W poprzednich wywiadachDyrektor generalny YouTube'a, Neal Mohan, stwierdził, że wykorzystanie treści wideo do szkolenia sztucznej inteligencji — w tym transkrypcji — naruszałoby warunki platformy. A w maju w odcinku DekoderDyrektor generalny Google, Sundar Pichai, zgodził się z oceną Mohana, że ​​gdyby OpenAI rzeczywiście wyszkoliło Sorę w zakresie treści dostępnych na YouTube, złamałoby to warunki YouTube.

„Mamy regulamin i oczekujemy, że ludzie będą go przestrzegać podczas tworzenia produktu, więc tak właśnie to postrzegałem” – powiedział Pichai.



źródło