Wereldwijde storing Facebook 2021: dit zijn de gevolgen

Redactie
0

De wereldwijde storing van Facebook op 4 oktober 2021 bracht onvolkomenheden aan het licht. Hoe kan een gigantische internetdienst als Facebook, verspreid over vele locaties, binnen enkele minuten van het toneel verdwijnen?  Er moeten veel dingen samenkomen – en zoals de instorting hier verliep is een goede les en een waarschuwing voor allen die vertrouwen op het internet en hun eigen vaardigheden.

wereldwijde Facebook storing 2021

Wereldwijde storing Facebook 2021 gevolgen voor meer diensten

Voor sommige gebruikers is de uitval van Facebook op 4 oktober 2021 onopgemerkt voorbijgegaan; zij duurde slechts zes uur. Maar voor veel van de 3,5 miljard Facebook-gebruikers was het een lange zes uur met soms onverwachte gevolgen.

Binnen een half uur verdwenen alle essentiële routers en servers van het bedrijf de een na de ander, en daarmee ook het sociale netwerk van Facebook, inclusief de websites en zijn Messenger-, WhatsApp- en Instagram-diensten.

Configuratiefout van Facebook

Sommige netwerkspecialisten gingen er al snel van uit dat het een configuratiefout moest zijn en bleven kalm. Maar voor veel gebruikers die uitsluitend via hun Facebook-gegevens elders op het internet inloggen, waren veel internetdiensten die eigenlijk onafhankelijk van Facebook zouden moeten zijn, niet toegankelijk.

Bedrijven over de hele wereld die normaal via Facebook met hun klanten communiceren, zijn inkomsten misgelopen. Mark Zuckerberg, oprichter en hoofd van Facebook, zag 6 tot 7 miljard dollar (5 tot 6 miljard euro) verdampen toen de aandelen van zijn bedrijf op de beurzen crashten, volgens schattingen van het nieuwsmagazine Bloomberg.

Daarna was Zuckerberg nog maar 120 miljard dollar waard. In de nasleep zouden klanten Facebook wel eens om compensatie kunnen vragen of zelfs aanklagen vanwege de advertenties die niet werden afgespeeld, om nog maar te zwijgen van het imagoverlies.

“Dit is een mislukking die een zeer hoog niveau van deskundigheid vereist.”

Bovendien was er een golf van hoon en scheldpartijen van veiligheidsdeskundigen. Zo begeleidde Steve Weis, een beveiligingsspecialist en voormalig Facebook-medewerker, een visualisatie van het half uur durende afsluitproces van de internetverbindingen met de fidgety saxofoonklanken van het liedje Yakety Sax, dat ooit veel Benny Hill sketches begeleidde.

En Phillip Hallam-Baker, cryptografiespecialist en auteur van netwerkspecificaties tweette zelfvoldaan: “Dit is een fout die een zeer hoog niveau van deskundigheid vereist.”

Concurrenten krijgen nieuwe klanten

Voor sommige concurrenten heeft de crash nieuwe klanten opgeleverd. Veel Facebook-gebruikers hebben hun toevlucht genomen tot andere communicatiemiddelen als vervanging. Er is een aanzienlijke toename van het SMS-verkeer gedocumenteerd en een toename van het aantal gebruikers dat is overgestapt op messengers zoals Signal en Discord (zie ct.de/ ygaw).

Facebook heeft zichzelf buitengesloten

Als gevolg van de uitval verloren Facebook-medewerkers hun toegang tot interne tools, en ze werden daarmee afgesloten van de hulpmiddelen die zij gebruiken om dergelijke problemen op te lossen. Daartoe behoren de interne e-mailcommunicatie van Facebook en de toegangsbadges voor werknemers. Sommige berichten suggereren dat het hoofdkantoor van Facebook niet in staat was om op te treden.

Bijkomstige schade door toename DNS-verzoeken

Er was ook nevenschade. Cloudflare, de exploitant van de wereldwijde resolverdienst die toegankelijk is op het IP-adres 1.1.1.1, meldde een 30-voudige toename van DNS-verzoeken.

De verklaring ligt voor de hand: alle internetdiensten vertrouwen op het omzetten van domeinnamen naar IP-adressen om contact te leggen met servers. Als je Facebook’s Messenger start, vraagt deze aan de geconfigureerde resolver onder welk IP-adres de corresponderende server is geadresseerd. Als hij binnen een paar seconden geen antwoord krijgt, herhaalt hij zijn verzoek.

Afhankelijk van de programmering en instellingen kan dit ook met steeds kortere tussenpozen gebeuren, waardoor de vraagfrequentie verder toeneemt, en er zich bij wijze van spreken een groeiende berg aan verzoeken voor de deur opstapelt.

Cloudflare beweert de toegenomen belasting goed te hebben opgevangen en nog steeds veel verzoeken binnen een redelijke tijd (max. 10 ms) te hebben beantwoord. Maar kleinere resolvers zijn wellicht bezweken onder de toegenomen belasting, met als gevolg dat zij DNS-query’s naar willekeurige bestemmingen slechts traag konden beantwoorden.

Facebook beheerders kwamen in vicieuze cirkel

Voor het reparatieteam van Facebook waren de gevolgen erger, omdat ook de interne DNS-servers niet meer reageerden. Dit stelde hen voor bijkomende problemen. Volgens de New York Times waren sommige beheerders naar een datacentrum in Santa Clara, Californië, gegaan om een “handmatige reset” van de servers te proberen. Maar ze konden het gebouw niet eens in – omdat Facebook een op internet gebaseerde toegangscontrole gebruikt die alleen werkt als de eigen DNS-servers bereikbaar zijn.

Facebook zal waarschijnlijk voor zichzelf houden hoe het er uiteindelijk in geslaagd is deze constructiefout te omzeilen.

Beschrijving van de oorzaken wereldwijde storing Facebook 2021

Belangrijker lijkt echter de beschrijving van de oorzaken, want dat is wat elke bedrijfs- en thuisnetwerkbeheerder wil vermijden. Facebook zwijgt over de precieze oorzaak. Aangenomen mag echter worden dat het allemaal begon met een bedieningsfout, een foutief commando in een configuratiehulpmiddel dat netwerkexploitanten en grote contentproviders gebruiken om naar behoefte routes naar hun netwerken aan te roepen en terug te trekken uit andere subnetten van het internet (Border Gateway Protocol, BGP).

Eigenlijk wilden ze een meting doen

Santosh Janardhan, vice president voor infrastructuur bij Facebook, schrijft in een blogbericht dat de opdracht eigenlijk bedoeld was om de wereldwijde backbone-capaciteit te meten. In plaats daarvan, is de fout in het bevel er doorheen geglipt.

Toen kwam er een tot dan toe onbekende fout in een controle-instrument: dit had de bedieningsfout moeten herkennen en het fatale commando moeten stoppen, maar liet het vrij spel. Facebook beschrijft de gevolgen als volgt: “Tijdens de storing werd het volledige backbonenetwerk van Facebook platgelegd. Als gevolg daarvan verklaarden alle sites zich defect en trokken hun BGP-announcements in.”


Met online hulpmiddelen zoals BGPlay van de Europese IP-adressenadministratie RIPE kan ook achteraf worden gevisualiseerd hoe de servers en routers van Facebook geleidelijk van het internet zijn verdwenen. Afbeeldingen: RIPE server/BGPlay


Gevisualiseerd verdwijnen van Facebook via BGPlay

Dit komt waarschijnlijk overeen met het eerste half uur waarin alle routes naar Facebook-servers en -routers de een na de ander werden verwijderd. Sommige netwerkbeheerders hebben dit proces gevisualiseerd met hulpmiddelen zoals BGPlay van de Europese netwerkadministratie RIPE, omdat verschillende webdiensten de BGP-routebeheerprocessen openbaar loggen. Dit maakt het gemakkelijk om te zien hoe het commando geleidelijk alle Facebook-announcements uitroeide. De uitschakeling van de datacentra was al drama genoeg, maar er was ook een conceptuele fout: in tegenstelling tot wat specialisten aanbevelen, gebruikt het bedrijf alleen zijn eigen DNS-servers voor zijn eigen domeinen, en dan ook nog alleen in zijn eigen netwerk (autoritatieve DNS-servers).



Bescherming tegen externe aanvallen wordt interne aanval

Deze zijn zo geconfigureerd dat zij ook hun BGP-announcements intrekken als hun eigen datacentra niet reageren. Dit klinkt als een voorzorgsmaatregel tegen aanvallen van buitenaf. Maar het resultaat was dat geen enkele resolver ter wereld DNS-query’s voor Facebook-domeinen kon beantwoorden; de gezaghebbende DNS-servers van Facebook, die de resolvers van de informatie moesten voorzien, ontbraken nu.

Dit versterkte de noodzaak voor Facebook om allereerst de samenhang überhaupt te herkennen, omdat analyse- en reparatietools ook afhankelijk zijn van een functionerende DNS-resolutie – net als de reeds genoemde toegangscontrolesystemen.

Facebook beschrijft dit slechts oppervlakkig: “Het kostte tijd, omdat deze faciliteiten zijn ontworpen met het oog op een hoge fysieke veiligheid. Het is moeilijk om er binnen te komen, en als je er eenmaal binnen bent, zijn servers en routers zo ontworpen dat ze moeilijk te veranderen zijn.”

Lastige maar zorgvuldige reactivering van diensten

Men zou graag meer weten over dit proces, want afgaande op de (minieme) beschrijving van de veiligheidsmaatregelen lijkt een uitval van zes uur toch nog kortstondig, gegeven de mogelijke complicerende factoren. Per saldo lijkt Facebook er goed vanaf te zijn gekomen.

Dit kan voor een deel ook liggen aan de goed aangepakte hervatting van de diensten. Nadat de beheerders erin geslaagd waren het backbonenetwerk te reactiveren, moesten de datacentra weer tot leven worden gewekt.

Plotse toename stroomverbruik

Maar dit is een delicate operatie: volgens Facebook trekken sommige datacenters “tientallen megawatts” bij normale werking – maar wanneer alle componenten tegelijk worden ingeschakeld, kan de inschakelstroom de hoofdzekering doen springen. Dan kunnen bijvoorbeeld opstartprocessen mislukken en leiden tot fouten op harde schijven.

Facebook gefaseerd opgestart

Facebook was hier tenminste op voorbereid door eerdere stresstests en heeft zijn activiteiten slechts geleidelijk hervat. Vier dagen later was er echter opnieuw een storing waarbij verschillende diensten van het bedrijf werden getroffen. Facebook heeft deze storing binnen twee uur verholpen, maar heeft geen redenen gegeven.

Santosh Janardhan belooft in een blogpost in ieder geval dat het bedrijf lering zal trekken uit het incident. De meeste veranderingen zullen de buitenwereld nauwelijks bereiken. Maar we zullen zien of het bedrijf het voorbeeld van vele anderen volgt en backup DNS-servers opzet (offsite secondary authoritative DNS). Er zijn genoeg providers, voorbeelden zijn UltraDNS, Cloudflare of GoDaddy. Zelfs voor kleinere bedrijven zijn die er.


Door Dušan Živadinović


 

 

Deel dit artikel

Lees ook

Augmented-Reality display in de auto: geprojecteerd hulpmiddel

Volkswagen gebruikt Augmented Reality Head-Up display in de auto als hulpmiddel bij navigatie en weggebruik door projectie op de voorruit.

Delen van gegevens tussen WhatsApp en Facebook: opt-out

De berichtendienst WhatsApp geeft nu voor het eerst accountinformatie – waaronder het mobiele telefoonnummer van de gebruiker – aan moederbedrijf Face...

0 Praat mee
avatar
  Abonneer  
Laat het mij weten wanneer er