Crowdstrike BSOD

Sterkte aan iedereen die op Windows werkt en een Crowdstrike agent op zijn machine heeft.
Of misschien beginnen de Gentse Feesten wel sneller voor je :slight_smile:

3 likes

Ik kijk al uit naar de nitty gritty Computer Club analyse hier op het forum :innocent:

3 likes

Kris, kom maar op met de analyse, wat is er misgegaan en hoe moeten mensen het oplossen?

2 likes

Wat er juist gebeurd is, zal hopelijk duidelijk worden de komende week. Het idee nu is dat er een niet-genoeg geteste update gereleased is. Hoe dat is kunnen gebeuren in het release proces, zal moeten blijken.
Deze keer kan er de gebruikers niks verweten worden. Automatische updates van Crowdstrike is iets dat je absoluut wil
Op onderstaande link staan de maatregelen beschreven om het te corrigeren. Voor zover ik het begrijp (wij hebben enkel Macs, dus niet involved) is het nodig om fysiek toegang te hebben tot het systeem dat aan het BSOD-en is.

https://www.crowdstrike.com/blog/statement-on-falcon-content-update-for-windows-hosts/

Dit meent dat er veel ITā€™ers naar remote locaties mogen om een keyboard aan een al lang vergeten systeem te hangen

1 like

Turns out CEO of CrowdStrike is former CTO of McAfee and a similar story happened back in 2010 when their update caused worldwide meltdown for Windows XP users

https://www.reddit.com/r/sysadmin/s/DWhddZSZRW

1 like

Pro tip voor iedere SysAdmin/SysOp:

IPMI (iDRAC genaamd bij DELL, ookwel LOM (Lights-Out Management)) op je HyperVisor (VMware ESXi, Xen, KVM, Hyper-V,ā€¦) waar al je VMā€™s op draaien.
Zodat je remote aan iedere server kan, ook als die een OS crash heeft.
Dit bootst via het netwerk een KVM na. (Keyboard, Video, Mouse)

Voor mij is dat altijd een must, no way dat ik om 4u nachts nog naar een datacenter ga rijden. (Vroeger genoeg mogen doen)

En voor machines die geen ingebouwde IPMI hebben gebruik ik een PiKVM.
Die sluit je aan op de HDMI- en USB poort van je PC.

Dan kan je remote ieder Windows systeem in safe mode opstarten en zo de slechte .sys file deleten.

Je kan met deze apparaten zelfs ISOā€™s mounten. (Virtuele CD Drive)
Zodat je dit issue via een Live Bootable CD (Ultimate Boot CD, Hirenā€™s Boot CD,ā€¦) ook kan fixen mocht safe mode niet werken.

Ik heb de issues die men collegaā€™s hadden kunnen volgen via Teams. Zelf ben ik nog op verlof (thank god)

Gelukkig liggen de meeste van onze klanten dichtbij zodat we kunnen langs gaan en hun devices troubleshooten.
Servers zijn bijna allemaal VMā€™s en fysieke servers hebben IDRAC of ILOā€™s.

Good luck aan bedrijven die offshore IT hebben. Ik weet van mijn moeder dan BNP Paribas Fortis IT in Portugal heeft (deels, niet volledig)

Ik afwachting van een inhouse uitleg, hier ene van het altijd uitstekende Code Report:

2 likes

Het was weer feest vorige vrijdag,
opnieuw zoals bij XZ vlak voor het weekend (itā€™s like the world really hates SysAdmins/SysOps).
De halve Fortune 500 lag plat en bijgevolg ook de halve digitale wereld.
Y2K liet blijkbaar 24 jaar op zich wachten.

Impact

Wie vrijdagochtend zijn werkcomputer met Windows wou gebruiken kon wel eens verrast worden met een Blue Screen of Death.
Of kon niet meer inloggen. (veel Active Directory servers waren ook geaffecteerd)
En met ā€œTurning it Off and On Againā€ kon je het deze keer helaas niet opgelost krijgen.
Economisch werkloos heet dat dan, behalve dan de SysAdmins, die hadden de handen vol. (met keyboards, veel keyboards)

Banken gingen offline, operatiekwartieren werden lam gelegd en vliegtuigen bleven aan de grond.
Voor jou ook geen vertraagde trein als je geen abonnement had, want je kon geen trein tickets kopen voor de NMBS.

In totaal waren er 8,5 miljoen computers impacted.

Oorzaak

CrowdStrike, een software bedrijf dat instaat voor beveiliging van servers en desktops had een slechte update uitgestuurd voor hun Falcon Sensor.
Dat is een stuk EDR (Endpoint Detection and Response) Software, dat instaat voor het detecteren en pareren van cyberaanvallen op computers die in verbinding staan met het internet.
De update bevat normaal nieuwe definities van gekende aanvalspatronen, waarmee de software nieuwe aanvallen kan herkennen en kan afslaan.
Alleen, deze keer zat er een logische fout in dat update bestand.
Falcon draait op het diepste niveau binnen Windows, Kernel Level.
Dat moet ook, want je wil dat je ā€œanti-virusā€ natuurlijk alle dreigingen kan afvangen.
Dat wil ook zeggen dat Falcon als 1 van de eerste processen opgestart wordt.
De logische fout zorgde voor een crash van de Falcon driver, normaal zou je dan een melding krijgen ā€œThis application has stopped workingā€, maar bij Kernel Software zorgt dat voor een systeem crash, als ingebouwde beveiliging van Windows om de integriteit van het systeem te bewaren.

Waar XZ zeer beperkte schade had aangericht, was het deze keer wel goed raak.
De economische schade moet enorm geweest zijn.
Je zal maar die engineer zijn die verantwoordelijk was voor deze slechte update file.
(Hopelijk hebben ze bij CrowdStrike een Blameless Post Mortum beleid)

Velen kijken uiteraard naar George Kurtz, CrowdStrikeā€™s CEO voor tekst en uitleg.
En niet zonder reden, het is namelijk niet zijn eerste rodeo.
McAfee had in april 2010 ook een slechte update gepushed, die zorgde voor een globale outage.
Wie was CTO ten tijde van de outage? Inderdaad, ook George Kurtz.

Verschillende fixes

https://www.reddit.com/r/crowdstrike/s/XwLGHV9ROP

Van 15 keer rebooten, booten in safe mode, Intel vPro oplossingen, tot ingewikkelde stappen met snapshots op AWS.

Au fond kwam het er op neer dat je de slechte update file manueel diende te verwijderen.
Dat hield in dat je in je systeemmappen op zoek moest gaan naar de update .sys file en die diende te verwijderen.

Microsoft, die onterecht met de vinger gewezen werd, kwam ook met een fix, maar die vereiste alsnog Safe Mode (en de inlog van een Administrator) of booten van USB (waarbij je je Bitlocker Recovery Key nodig had).

1 ding stond vast, dit euvel opgelost krijgen ging heel wat manueel werk vergen.
Je moest vaak fysiek toegang hebben tot de machine, om de slechte update file terug weg te halen, waarna je systeem terug op kan starten en de fix van CrowdStrike binnen kan halen.

Verschillende analyses

Debunking van de eerste Twitter analyse x.com

My 2 cents

Ieder gerespecteerd bedrijf test zijn updates in een CI/CD pipeline en op meerdere test/staging omgevingen.
Of dat hier weldegelijk gebeurd was is nog steeds onduidelijk.

Een kill-switch inbouwen in je Kernel Level Driver zou geen slecht idee zijn.
Bvb dat er eerst een korte check komt of een bepaalde DNS record bestaat,
indien die bestaat, moet er eerst een update binnengehaald worden via de normale kanalen.
Dit voor je software effectief updates verwerkt en in gebruik neemt.
Zo kan je een slechte update alsnog ongedaan maken.

Notable memes

Bronnen / naslagwerk

https://x.com/SwiftOnSecurity

BSOD, but make it fancy: x.com
x.com
x.com
x.com
https://youtu.be/wAzEJxOo1ts
DPG Media Privacy Gate
DPG Media Privacy Gate

7 likes

Ze hebben ondertussen wel alles uit de kast gehaald om zich te verontschuldigen en het goed te maken met hun klanten :rofl: :rofl: :rofl:

AllƩ, ze hebben geprobeerd:

When TechCrunch checked the voucher, the Uber Eats page provided an error message that said the gift card ā€œhas been canceled by the issuing party and is no longer valid.ā€

7 likes

Ik vind het wel nog altijd bad practice dat er geen update roll out gesimuleerd wordt op een VM in de CI/CD pipeline.
Wetende op hoeveel devices Falcon deployed is (was?).

Ze zien er wel de ā€œhumorā€ nog van in.
Boodschap die de CEO brengt vind ik ook wel een goeie.

TL;DR, We f*cked up, we need to do better.

1 like