Ten artykuł jest częścią specjalnego wydania VentureBeat „AI at Scale: From Vision to Viability”. Więcej informacji na temat tego specjalnego wydania można znaleźć tutaj.

Ten artykuł jest częścią specjalnego wydania VentureBeat „AI at Scale: From Vision to Viability”. Więcej na ten temat przeczytasz tutaj.

Jeśli cofniesz się w czasie o 60 lat do Stevenson w Alabamie, odkryjesz Widows Creek Fossil Plant, elektrownię o mocy 1,6 gigawata z jednym z najwyższych kominów na świecie. Dzisiaj, istnieje centrum danych Google Tam, gdzie kiedyś stała fabryka Widows Creek. Zamiast korzystać z węgla, linie przesyłowe starego obiektu dostarczają energię odnawialną do zasilania usług internetowych firmy.

Ta transformacja z zakładu spalającego węgiel w cyfrową fabrykę symbolizuje globalne przejście w stronę infrastruktury cyfrowej. Będziemy świadkami szybkiego wzrostu produkcji inteligencji dzięki fabrykom AI.

Te centra danych to mechanizmy podejmowania decyzji, które pochłaniają zasoby obliczeniowe, sieciowe i pamięci masowej, jednocześnie przekształcając informacje w spostrzeżenia. mają gęsto upakowane centra danych pojawia się w rekordowym czasie Aby sprostać niezaspokojonemu zapotrzebowaniu na sztuczną inteligencję.

Infrastruktura wspierająca sztuczną inteligencję stoi przed tymi samymi wyzwaniami, które definiują fabryki przemysłowe, od mocy po skalowalność i niezawodność, wymagając nowoczesnych rozwiązań odwiecznych problemów.

Nowa siła robocza: oblicz moc

W epoce pary i stali praca oznaczała tysiące pracowników obsługujących maszyny przez całą dobę. We współczesnych fabrykach sztucznej inteligencji o wydajności decyduje moc obliczeniowa. Szkolenie dużych modeli sztucznej inteligencji wymaga ogromnych zasobów obliczeniowych. Według Aparny Ramani, wiceprezesa ds. inżynierii metaWzrost uczenia tych modeli wynosi w przybliżeniu jeden współczynnik czterech rocznie W całej branży.

Ten poziom skalowania jest na dobrej drodze do spowodowania takich samych zakłóceń, jakie miały miejsce w świecie przemysłowym. Zacznijmy od tego, że istnieją ograniczenia w łańcuchu dostaw. Procesory graficzne – silniki rewolucji AI – pochodzą od garstki producentów. Są niesamowicie złożone. Są bardzo poszukiwane. Nie powinno zatem dziwić, że podlegają one wahaniom kosztów.

Próbując przezwyciężyć niektóre z tych ograniczeń dostaw, wielkie marki, takie jak AWS, Google, IBM, Intel i Meta projektują własne, niestandardowe układy krzemowe. Chipy te są zoptymalizowane pod kątem mocy, wydajności i kosztów, co czyni je specjalistami z unikalnymi funkcjami dostosowanymi do odpowiednich obciążeń.

Zmiana ta nie dotyczy jednak tylko sprzętu. Istnieją również obawy dotyczące wpływu technologii sztucznej inteligencji na rynek pracy. Badania opublikowane przez Columbia Business School zbadał branżę zarządzania inwestycjami i odkrył, że przyjęcie sztucznej inteligencji doprowadziło do 5% spadku udziału pracy w dochodach, co odzwierciedla zmiany zaobserwowane podczas rewolucji przemysłowej.

„Sztuczna inteligencja ma potencjał, aby przekształcić wiele, a może wszystkie sektory gospodarki” – mówi profesor Laura Veldkamp, ​​jedna z autorek artykułu. „Jestem pełen optymizmu, że dla wielu osób znajdziemy pracę zarobkową. „Ale będą koszty przejścia”.

Skąd będziemy pozyskiwać energię na dużą skalę?

Oprócz kosztów i dostępności, procesory graficzne służące jako siła robocza w fabryce AI są niezwykle energochłonne. Kiedy we wrześniu 2024 r. zespół XAI uruchomił klaster superkomputerów Colossus, miał on podobno dostęp do mocy od siedmiu do ośmiu megawatów zapewnianych przez władze Tennessee Valley. Jednak 100 000 procesorów graficznych H100 klastra wymaga znacznie więcej. Dlatego firma xAI wprowadziła mobilny generator VoltaGrid, aby tymczasowo wypełnić lukę. Na początku listopada spółka Memphis Light, Gas & Water zawarła bardziej trwałą umowę z TVA na dostawę dodatkowych 150 MW mocy na rzecz XAI. Krytycy twierdzą jednak, że zużycie energii w tym zakładzie obciąża sieć miejską i przyczynia się do złej jakości powietrza. i Elona Muska są już plany Dla kolejnych 100 000 procesorów graficznych H100/H200 pod tym samym dachem.

Zdaniem McKinsey’aOczekuje się, że do końca dekady zapotrzebowanie centrów danych na energię wzrośnie niemal trzykrotnie w porównaniu z obecną wydajnością. Zmniejsza się także tempo, w jakim procesory podwajają swoją wydajność. Oznacza to, że wydajność na wat wciąż się poprawia, ale w wolniejszym tempie i z pewnością nie na tyle szybko, aby sprostać obliczonemu zapotrzebowaniu na moc.

Co zatem trzeba zrobić, aby przyspieszyć wdrażanie technologii sztucznej inteligencji? Raport Goldman Sachs Zasugeruj, że amerykańskie przedsiębiorstwa użyteczności publicznej powinny zainwestować około 50 miliardów dolarów w nowe moce wytwórcze tylko w celu obsługi centrów danych. Analitycy spodziewają się również, że zużycie energii w centrach danych zwiększy nowe zapotrzebowanie na gaz ziemny o około 3,3 miliarda stóp sześciennych dziennie do roku 2030.

W miarę powiększania się fabryk sztucznej inteligencji skalowanie staje się trudniejsze

Do wytrenowania modeli, które sprawią, że fabryki sztucznej inteligencji będą dokładne i wydajne, potrzeba tysięcy procesorów graficznych pracujących równolegle przez wiele miesięcy. Jeśli procesor graficzny ulegnie awarii podczas treningu, Wyścig musi zostać zatrzymany, przywrócony do ostatniego punktu kontrolnego i wznowionyJednak wraz ze wzrostem złożoności fabryk sztucznej inteligencji rośnie także ryzyko niepowodzeń. Ramani odniósł się do tej kwestii podczas wydarzenia Prezentacja AI Infra @ Scale,

„Zatrzymywanie i ponowne uruchamianie jest bardzo bolesne. Sytuację pogarsza jednak fakt, że wraz ze wzrostem liczby procesorów graficznych rośnie prawdopodobieństwo awarii. W pewnym momencie liczba niepowodzeń może stać się tak duża, że ​​stracimy zbyt dużo czasu na minimalizowanie tych niepowodzeń i ledwo będziemy w stanie ukończyć bieg treningowy.

Według Ramaniego Meta pracuje nad krótkoterminowymi sposobami wczesnego wykrywania awarii i szybszego przywracania działania. Ponadto badania nad treningiem asynchronicznym mogą poprawić wykorzystanie procesora graficznego i dostarczanie szkoleń w wielu centrach danych, a także poprawić odporność na awarie.

Zawsze aktywna sztuczna inteligencja zmieni sposób, w jaki prowadzimy działalność

Tak jak fabryki z przeszłości polegały na nowych technologiach i modelach organizacyjnych, aby zwiększyć skalę produkcji towarów, fabryki sztucznej inteligencji polegają na mocy obliczeniowej, infrastrukturze sieciowej i pamięci masowej do produkcji tokenów – Najmniejsza informacja wykorzystywana przez model sztucznej inteligencji,

„Ta fabryka sztucznej inteligencji produkuje, tworzy, produkuje nowy towar, towar o wielkiej wartości” – powiedział podczas swojego przemówienia dyrektor generalny Nvidii Jensen Huang. Prezentacja Computex 2024„To całkowicie przekształca niemal każdą branżę. Mamy zatem do czynienia z nową rewolucją przemysłową”.

McKinsey twierdzi, że generatywna sztuczna inteligencja ma możliwość podłączenia Równowartość od 2,6 do 4,4 biliona dolarów rocznych korzyści ekonomicznych w 63 różnych przypadkach użycia. W każdej aplikacji, niezależnie od tego, czy fabryka AI jest hostowana w chmurze, wdrażana na brzegu, czy zarządzana samodzielnie, należy pokonać te same wyzwania związane z infrastrukturą, co w fabryce przemysłowej. Według tego samego raportu McKinsey osiągnięcie choćby jednej czwartej tego wzrostu do końca dekady będzie wymagało mocy obliczeniowej centrum danych o mocy od 50 do 60 gigawatów.

Jednak konsekwencje tego wzrostu w sposób trwały zmienią branżę IT. Huang zwrócił uwagę, że fabryki sztucznej inteligencji umożliwią branży IT generowanie informacji wywiadowczych dla branży wartej 100 bilionów dolarów. „To będzie przemysł produkcyjny. Nie przemysł produkcyjny komputerów, ale wykorzystanie komputerów w produkcji. To się nigdy wcześniej nie zdarzyło. Rzecz absolutnie niezwykła.”


Source link