Dział chmury Amazona wszczął dochodzenie w sprawie sztucznej inteligencji Perplexity. Kwestią problematyczną jest to, czy uruchomienie wyszukiwania AI narusza Usługi internetowe Amazona zasady, usuwając strony internetowe, które próbowały temu przeszkodzić, jak dowiedział się WIRED.

Rzecznik prasowy AWS, który rozmawiał z redakcją WIRED pod warunkiem zachowania anonimowości, potwierdził, że firma prowadzi dochodzenie w sprawie Perplexity. WIRED wcześniej odkrył że startup, który ma poparcie od funduszu rodzinnego Jeffa Bezosa i Nvidii, a niedawno był cenny za 3 miliardy dolarów — wydaje się polegać na treściach ze scrapowanych stron internetowych, do których dostęp został zabroniony za pośrednictwem protokołu wykluczenia robotów, powszechnego standardu internetowego. Podczas gdy protokół wykluczenia robotów nie jest prawnie wiążący, warunki korzystania z usługi są na ogół wiążące.

Protokół Wykluczenia Robotów to istniejący od kilkudziesięciu lat standard sieciowy, który polega na umieszczeniu pliku w postaci zwykłego tekstu (takiego jak wired.com/robots.txt) w domenie w celu wskazania, do których stron nie powinny uzyskiwać dostępu automatyczne boty i roboty indeksujące. Chociaż firmy korzystające ze skrobaków mogą zignorować ten protokół, większość tradycyjnie go przestrzega. Rzecznik Amazona powiedział WIRED, że klienci AWS muszą przestrzegać standardu robots.txt podczas przeszukiwania stron internetowych.

„Warunki świadczenia usług AWS zabraniają klientom korzystania z naszych usług do jakichkolwiek działań niezgodnych z prawem, a nasi klienci są odpowiedzialni za przestrzeganie naszych warunków i wszystkich obowiązujących przepisów” – powiedział rzecznik w oświadczeniu.

Następuje kontrola praktyk Perplexity raport Forbesa z 11 czerwca który oskarżył startup o kradzież co najmniej jednego ze swoich artykułów. Śledztwa WIRED potwierdziły tę praktykę i znalazły dalsze dowody nadużycie skrobania I plagiat przez systemy połączone z chatbotem wyszukiwania opartym na sztucznej inteligencji firmy Perplexity. Inżynierowie Condé Nast, spółki-matki WIRED, blokują robota Perplexity na wszystkich jego stronach internetowych, korzystając z pliku robots.txt. WIRED ustaliło jednak, że firma miała dostęp do serwera przy użyciu niepublikowanego adresu IP – 44.221.181.252 – który w ciągu ostatnich trzech miesięcy odwiedzał nieruchomości Condé Nast co najmniej setki razy, najwyraźniej w celu przeszukania witryn Condé Nast.

Wydaje się, że maszyna powiązana z Perplexity jest zaangażowana w szeroko zakrojone przeszukiwanie witryn z wiadomościami, które zabraniają botom dostępu do ich treści. Rzecznicy The Guardian, Forbes i The New York Times również twierdzą, że wielokrotnie wykryli adres IP na serwerach tej firmy.

WIRED namierzył adres IP maszyny wirtualnej znanej jako instancja Elastic Compute Cloud (EC2) hostowanej na platformie AWS, która rozpoczęła dochodzenie po tym, jak zapytaliśmy, czy używanie infrastruktury AWS do usuwania stron internetowych, które tego zabraniają, narusza warunki świadczenia usług firmy.

W zeszłym tygodniu dyrektor generalny Perplexity, Aravind Srinivas, jako pierwszy odpowiedział na dochodzenie WIRED, stwierdzając, że pytania, które zadaliśmy firmie, „odzwierciedlają głębokie i fundamentalne niezrozumienie sposobu działania Perplexity i Internetu”. Zatem Srinivas powiedział Fast Company że tajny adres IP zaobserwowany przez WIRED podczas skrobania witryn internetowych Condé Nast, a utworzona przez nas witryna testowa była obsługiwana przez firmę zewnętrzną, która świadczy usługi przeszukiwania i indeksowania sieci. Odmówił podania nazwy firmy, powołując się na umowę o zachowaniu poufności. Zapytany, czy powiedziałby osobie trzeciej, aby przestała indeksować WIRED, Srinivas odpowiedział: „To skomplikowane”.

źródło