Odzyskiwanie sprawności po globalnej awarii technologicznej może być długim i żmudnym procesem



CNN

Firma, która spowodowała poważną awarię komputerów na całym świecie, twierdzi, że wadliwa aktualizacja została wycofana – ale niekoniecznie pomaga to tysiącom przedsiębiorstw, których dotknęła ta usterka.

Uderzenie tłumu problem z oprogramowaniem w sercu awarii działa na tak głębokim poziomie w zainfekowanych komputerach i systemach że po prostu trzeba je uruchomić, żeby były naprawił będzie w wielu przypadkach ogromnym wyzwaniem.

Sytuację pogarsza fakt, że wiele serwerów, które mogą zawierać informacje niezbędne do ponownego uruchomienia tych systemów, samo ulega awarii i uruchamia się ponownie.

„Nie sądzę, żeby było za wcześnie, żeby to stwierdzić: to będzie największa awaria IT w historii” – powiedział ekspert ds. bezpieczeństwa Troy Hunt w poście na X.

Oprogramowanie CrowdStrike at fault działa na poziomie jądra komputera, znacznie głębszym niż to, co robią bardziej powszechne aplikacje, takie jak przeglądarki czy gry wideo. Ta część urządzenia ma znacznie większą widoczność i kontrolę nad komputerem i jego komponentami, co czyni ją krytyczną dla działania wszystkich innych systemów — i znacznie bardziej wrażliwą.

Oprogramowanie CrowdStrike działa na poziomie jądra, co oznacza, że ​​może lepiej wykrywać ataki cybernetyczne, ale oznacza to również, że obecny błąd powoduje awarie komputerów z systemem Windows Niebieski ekran śmierci zanim użytkownicy podejmą jakiekolwiek działania naprawcze.

Wygląda na to, że problem można rozwiązać, CrowdStrike powiedziałale w wielu przypadkach wymaga to żmudnej pracy: Każde dotknięte urządzenie musi zostać udostępnione administratorowi i ręcznie ponownie uruchomione w trybie awaryjnym. Następnie plik CrowdStrike, który powoduje problem, musi zostać ręcznie usunięty.

W przypadku firm posiadających setki lub tysiące laptopów, komputerów stacjonarnych i serwerów, na których działa oprogramowanie zabezpieczające CrowdStrike, konieczne może być wielokrotne powtarzanie tego procesu przez jedną osobę.

„Tego nie da się zautomatyzować” – powiedział Kevin Beaumont, badacz ds. bezpieczeństwa i były analityk ds. zagrożeń w firmie Microsoft, post na X„To będzie więc niezwykle bolesne dla klientów CrowdStrike”.

W piątek, strona ze stanem firmy Microsoft poinformowano, że niektórzy użytkownicy maszyn wirtualnych z systemem Windows poradzili sobie z problemem poprzez wielokrotne ponowne uruchamianie, w niektórych sytuacjach nawet 15 razy z rzędu.

„Otrzymaliśmy opinie od klientów, że może być konieczne kilka ponownych uruchomień (zgłoszono nawet 15), ale ogólnie rzecz biorąc, ponowne uruchomienia są skutecznym krokiem rozwiązywania problemów na tym etapie” — powiedział Microsoft na stronie. Firma nie spekulowała, dlaczego ta technika wydaje się działać.

Microsoft dodał, że organizacje, których to dotyczy, mogą również spróbować przywrócić swoje maszyny do wcześniejszego stanu, korzystając z poprzedniej kopii zapasowej systemu, choć przyznał, że nie we wszystkich przypadkach będzie to możliwe.

Pogarsza się.

Organizacje, które poważnie traktują kwestie bezpieczeństwa, najprawdopodobniej zaszyfrowały dyski twarde swoich komputerów, co jeszcze bardziej utrudniło dostęp do plików przeznaczonych do usunięcia.

W przypadku tych organizacji „trzeba ręcznie odszyfrować dysk za pomocą klucza odzyskiwania BitLocker, który prawdopodobnie — w przypadku większości firm — jest przechowywany cyfrowo na jednym z serwerów, który jest obecnie uruchamiany wielokrotnie” — powiedział Ira Bailey, badacz ds. bezpieczeństwa, w poście na BlueSky.

Każdy zainfekowany komputer zaszyfrowany za pomocą BitLockera będzie musiał zostać odblokowany za pomocą klucza odzyskiwania, zanim organizacje będą mogły rozpocząć proces usuwania uszkodzonego pliku CrowdStrike i przywracania normalnego działania, powiedział ekspert ds. cyberbezpieczeństwa, który występuje pod pseudonimem SwiftOnSecurity w post na X.

Jak powiedział Kenn White, niezależny badacz ds. bezpieczeństwa specjalizujący się w bezpieczeństwie sieci, w wywiadzie dla CNN, odzyskiwanie danych będzie niezwykle kosztowne dla firm z listy Fortune 500 zatrudniających duże zespoły informatyków, a dla mniejszych firm prawdopodobnie jeszcze większym wyzwaniem.

„Jeśli nie masz fizycznego personelu, który mógłby tego dotknąć, to zajmie wiele, wiele dni, zanim większość korporacyjnej Ameryki się z tego otrząsnie” – powiedział White. „To po prostu masa pracochłonnej, ręcznej pracy”.

„To dość skomplikowana procedura dla osób nietechnicznych” — dodał White — „a nawet wielu wykwalifikowanych specjalistów IT będzie miało trudności z jej wykonaniem na taką skalę, jaka będzie wymagana, biorąc pod uwagę liczbę maszyn, których to dotyczy”.

Ponieważ oprogramowanie zabezpieczające CrowdStrike działa na niezliczonej liczbie komputerów na całym świecie, aktualizacja, która została przesłana na te urządzenia, spowodowała ich wyłączenie niemal jednocześnie.

A w dzisiejszej gospodarce sieciowej awaria w jednej części łańcucha dostaw może wywołać efekt domina w górę i w dół linii. Gdy wiele części łańcucha dostaw ulega awarii, uruchamia to kaskadę problemów.

Wyobraź sobie osobę próbującą kupić kawę, powiedział Andrew Peck, ekspert ds. cyberbezpieczeństwa na Uniwersytecie Loughborough w Wielkiej Brytanii. To, co może wydawać się prostą transakcją, opiera się na wielu komputerach pracujących w tandemie, od punktu sprzedaży kawiarni po własne systemy zaplecza procesora płatności.

„W tym łańcuchu jest wiele komputerów, a zwykle im większy biznes, tym większy łańcuch” — powiedział Peck. „Jeśli którykolwiek z komputerów jest w łańcuchu, transakcja nie zostanie ukończona”.

A gdy teraz przeniesiemy to na przykład na gigantyczny przemysł lotniczy, sektor usług finansowych lub operacje służby zdrowia, w których decydujemy o życiu lub śmierci, skala katastrofy stanie się zupełnie oczywista.

Wielu ekspertów ds. cyberbezpieczeństwa stwierdziło, że odrębny problem, który pojawił się wcześniej, w czwartek, istotnie wpłynął na wielu klientów korzystających z usług w chmurze Microsoftu, jednak został rozwiązany z dnia na dzień i nie miał związku z problemem CrowdStrike.

Błąd w programie CrowdStrike mógł zostać początkowo pomylony z problemem firmy Microsoft, ponieważ błąd w programie CrowdStrike dotyczył tylko komputerów z systemem Windows.

„Oba incydenty są powiązane z firmą Microsoft, ale Microsoft nie miał nic wspólnego z drugim incydentem” – powiedział White w wywiadzie dla CNN.

Wydaje się, że potwierdza to własne konto statusowe firmy Microsoft na platformie X, które w czwartek ogłosiło problem mające wpływ na „aplikacje i usługi Microsoft 365” i osobne ogłoszenie Piątek poświęcony awarii CrowdStrike. Te dwa problemy są śledzone przy użyciu różnych numerów referencyjnych.

W piątkowy poranek firma Microsoft poinformowała, że ​​problem z usługą Microsoft 365 został rozwiązany i że sytuacja się poprawiałaMicrosoft nie odpowiedział natychmiast na prośbę o komentarz.

Beaumont powiedział, że przeglądał kopię wadliwej aktualizacji CrowdStrike, co oznacza, że ​​aktualizacja oprogramowania CrowdStrike została dostarczona za pośrednictwem własnych systemów firmy. Dlatego mało prawdopodobne jest, aby Microsoft ponosił bezpośrednią odpowiedzialność za piątkowe przerwy w działaniu usług.

Problem z aktualizacją CrowdStrike polegał na tym, że nie była ona poprawnie sformatowana, „co powodowało, że system Windows za każdym razem się zawieszał” – powiedział Beaumont opublikowano na X.

Do relacji przyczyniła się Olesya Dmitracova z CNN.

Niniejsza historia została uzupełniona o dodatkowy kontekst i informacje o wydarzeniach.

źródło