6 września 2024

Jakie kroki podjąć, by uniknąć awarii podobnych do incydentu CrowdStrike

Incydent z CrowdStrike uwidocznił kruchość globalnych systemów IT i znaczenie solidnych procedur aktualizacji oprogramowania. „Aby minimalizować skutki ewentualnych nieprzewidzianych błędów administrator powinien mieć pełną kontrolę nad całym procesem aktualizacji” - wskazuje ekspert Stormshield. Podpowiada również rozwiązanie, które warto stosować na tym etapie.

"Niebieski Ekran Śmierci" (BSOD), czyli pokłosie błędu w oprogramowaniu CrowdStrike pojawił się - wedle szacunków - na ekranach ok. 8,5 mln urządzeń na całym świecie. Lotnictwo, bankowość czy ochrona zdrowia – problemy dotknęły blisko 60 proc. firm z listy Fortune 500 prowadzących działalność w wielu kluczowych branżach.

Incydent, który wymknął się spod kontroli

Tak duża skala awarii związana była z popularnością tych rozwiązań, w szczególności w USA oraz jednoczesną, automatyczną aktualizacją CrowdStrike i systemu MS Windows. Według szacunków straty będące konsekwencją zamieszania liczone są w miliardach USD.

Incydent z CrowdStrike dostarczył nam cennych lekcji na przyszłość, wskazując na potrzebę ciągłego doskonalenia procedur bezpieczeństwa i gotowości na potencjalne zagrożenia, których źródłem niekoniecznie muszą być wrogie działania

Aleksander Kostuch

inżynier Stormshield, rozwiązań producenta rozwiązań z obszaru bezpieczeństwa IT

Nim CrowdStrike dostarczył rozwiązanie problemu, pojawiły się pierwsze metody jego obejścia. Dla korporacji - na masową skalę korzystających z rozwiązań, w których wystąpił błąd - największym wyzwaniem był jednak bezpośredni dostęp do uszkodzonych maszyn.

Naprawa wymagała ręcznej interwencji, w tym uruchamiania komputerów w trybie awaryjnym i usuwania określonych plików systemowych. Helpdesk nie był w stanie zareagować na problem zdalnie, ponieważ do zawieszonego komputera trzeba było podejść, a w większości międzynarodowych korporacji obsługa IT funkcjonuje w formie outsourcingu prowadzonego często z innego kraju. Na osobistą wizytę serwisanta trzeba poczekać, dlatego efektem awarii był długotrwały brak dostępu do usług i gigantyczne straty” – wyjaśnia Aleksander Kostuch. „Cały proces był po prostu czasochłonny, co dodatkowo komplikowało sytuację w firmach korzystających z szyfrowania dysków BitLocker

Aleksander Kostuch

inżynier Stormshield

Aktualizacje są kluczowe, ale testuj je w środowisku testowym

Fundamentalną zasadą jaką firmy i pracujący w nich administratorzy IT powinni się kierować - z myślą o ograniczaniu skutków podobnych incydentów - jest pełna kontrola sieci nad każdą, kluczową aktualizacją. Powinna ona obejmować indywidualną decyzję o wgraniu aktualizacji oprogramowania typu EDR lub oprogramowania układowego firmware na urządzeniach. Oczywiście z myślą o zachowaniu maksymalnego bezpieczeństwa, prawidłowa polityka w obszarze aktualizacji ma zasadnicze znaczenie. Opisywany przykład pokazuje jednak, że diabeł może tkwić w szczegółach.

Dbajmy o aktualizacje, ale jednocześnie przestrzegajmy zasady, że nowe wersje oprogramowania nie powinny być automatycznie wdrażane na wszystkich urządzeniach. Administrator powinien je najpierw przetestować w grupie pilotażowej. Ustanowienie grupy testowej to jedna z najlepszych praktyk jaką możemy zastosować z myślą o ograniczania skutków ewentualnych błędów. Wdrażamy aktualizację w zamkniętym środowisku i jeśli po zdefiniowanym zgodnie z praktykami czasie pojawi się niebieski ekran lub inny problem systemowy, można wstrzymać masową aktualizację, a błąd nie sparaliżuje pracy całej organizacji

Aleksander Kostuch

inżynier Stormshield

Ekspert radzi jak zorganizować środowisko testowe aktualizacji oprogramowania

Środowisko testowe jest odizolowane od środowiska produkcyjnego, aby ewentualne problemy nie wpływały na resztę infrastruktury. Oto 8 zasad, którymi powinni się kierować administratorzy środowisk IT.

Ustal grupę urządzeń, które będą pierwszymi odbiorcami aktualizacji, wybierając urządzenia reprezentatywne dla różnych typów sprzętu i konfiguracji, aby jak najlepiej odwzorować środowisko produkcyjne. Zasadnym jest, aby w grupie pilotażowej znalazły się zarówno starsze, jak i nowsze urządzenia, co pozwala zidentyfikować potencjalne problemy w szerszym zakresie.
W środowisku testowym warto symulować rzeczywiste obciążenia i typowe scenariusze użytkowania, aby sprawdzić, jak aktualizacja wpływa na wydajność i stabilność systemu. Symulacje mogą obejmować różne formy aktywności, jak praca z dużymi plikami, intensywna komunikacja sieciowa, a także testy funkcjonalności specyficzne dla danej organizacji.
Zbieraj szczegółowe logi, które pozwolą na szybką identyfikację i diagnozę problemów, automatyczne raportowanie incydentów czy inne błędy krytyczne. Pomoże to w szybkim reagowaniu.
Definiuj procedury i narzędzia pozwalające na szybkie wycofanie problematycznych aktualizacji w środowisku testowym, zanim zostaną wdrożone na większą skalę. To może obejmować tworzenie punktów przywracania systemu, backupów, korzystania z zapasowych partycji lub snapshotów maszyn wirtualnych przed wdrożeniem aktualizacji.
Oprócz standardowych testów, warto przetestować scenariusze awaryjne, takie jak przywracanie systemu po awarii, restart systemu po BSOD czy odtwarzanie danych z backupu. Umożliwia to przygotowanie się na najgorsze scenariusze.
Zalecane jest dokładnie udokumentowanie potencjalnego ryzyka i metody postępowania w przypadku problemów.
Przed każdą aktualizacją dobrze jest dokonać ocenę ryzyka, analizując aspekty krytyczności aktualizacji i jej wpływ na organizację, a także potencjalne zagrożenia i korzyści związane z wdrożeniem.
W przypadku aktualizacji o wysokim ryzyku, warto z wyprzedzeniem poinformować użytkowników i właścicieli usług oraz zadbać o wsparcie techniczne w okresie przejściowym.

Opisany model należy traktować jako idealny. Najbliższe funkcjonowania zgodnie z nim są banki i instytucje finansowe. Warto zwrócić uwagę, że oprogramowanie umożliwia wybór pomiędzy ręczną i kontrolowaną aktualizacją, a w pełni automatyczną. Tak jest w przypadku większości programów EDR, podobnych do CrowdStrike Falcon czy Stormshield Endpoint Security, które oferują możliwość aktualizacji ręcznych. Choć korzystanie z tej opcji wymaga większego zaangażowania, to może przynieść wiele korzyści

Aleksander Kostuch

inżynier Stormshield

Zaplanuj jak będziesz działać w trakcie awarii

Eksperci Stormshield zwracają uwagę na znaczenie procesów i dokumentów dotyczących planów ciągłości działania BCP (Business Continuity Plan) oraz procedur odzyskiwania dostępu do danych i systemów IT po awarii DR (Disaster Recovery). Och przyczyną, oprócz incydentów w obszarze cyfrowym mogą być klęski żywiołowe, pożary czy akty wandalizmu.

Wcześniejsze przygotowanie planów ciągłości działania ma dla organizacji krytyczne znaczenie. Plany określają, w jaki sposób firma będzie działać w sytuacji kryzysowej, nawet jeśli będzie musiała przenieść się do innej lokalizacji. Oczywiście, samo przygotowanie planów nie wystarczy, należy je cyklicznie testować i dostosowywać do aktualnych warunków funkcjonowania organizacji

Paweł Śmigielski

country menager Stormshield w Polsce

informacja stormshield

Powrót