CCF: Was de 112 storing, een common cause failure?
KPN gaf aan dat het een vier voudige redundantie heeft voor het landelijke noodnummer 112. Toch ging het mis in juni 2019, toen een aantal uren het nummer niet bereikbaar was.
‘Falen van een levensader,’ een noodnummer wat gemiddeld 4500 keer per dag gebeld wordt ligt een aantal uren plat. Hoeveel mensen hebben dan in die uren dat het systeem uit de lucht was geen gebruik kunnen maken van de nooddiensten?! Die vraag is op dit moment van schrijven nog niet te beantwoorden. Helaas zijn er twee mensen gedurende deze periode overleden doordat zij niet op tijd de hulpdiensten in konden schakelen.
Back-up
Uit de berichtgeving in de nasleep van deze storing is op te maken dat KPN (die de 112 dienst uitvoerd, althans de telefoontjes voor 112 doorzet naar de hulpdiensten) een drievoudige back-up heeft voor als het mis gaat.
Alle drie de back-ups werkten niet. Urenlang was het nummer niet bereikbaar. De oorzaak die wordt aangeduid is tot nu toe nog niet bekend, maar wordt geweten aan een software fout in een van de systemen. Wat de uiteindelijke fout is geweest, komen we misschien wel nooit te weten.
1oo4 (1 uit 4)
De beschikbaarheid werd in theorie geborgd met vier systemen. Voor als het primaire systeem faalde zouden er drie systemen zijn die het over konden nemen. De hardware fout tolerantie zat in dit geval op drie. Drie systemen die mochten falen waarbij de vierde de functie kan vervullen. Echter werkte geen van die drie systemen. Wat kan er nu mis gegaan zijn? Dat is natuurlijk niet te zeggen, maar zou het mogelijk een fout geweest zijn met een ‘common cause‘?
Gemeenschappelijke oorzaak
Systemen kunnen falen door fouten met een gemeenschappelijke oorzaak. Dit treedt op bij systemen waarbij er redundantie is aangebracht om hoger beschikbaar of betrouwbaar te kunnen zijn. Met andere woorden, er zijn meerdere gelijkwaardige onderdelen die dezelfde functie vervullen, maar door dezelfde fout uitgeschakeld kunnen worden. In de veiligheidstechniek bij de machinebouw moet hiermee rekening worden gehouden wanneer er twee kanalen worden gebruikt (redundantie).
Failures of different items, resulting from a single event, where these failures are not consequences of each other
ISO 13849-1:2016: 3.1.6
Soorten fouten
Mogelijke oorzaken van gemeenschappelijk falen kunnen zijn:
- Trilling (lostrillen van dezelfde onderdelen)
- Temperatuur (gaat buiten de grenzen van het bereik)
- Fabricagefout in het component zelf, waardoor bijvoorbeeld de contacten van een relais door dezelfde fout ‘vastplakken’
- EMC invloeden van buitenaf
Voorkomen van CCF
Om dit soort fouten te voorkomen is het van belang vanuit engineeringsoogpunt kundig en vakbekwaam te engineeren. Dat klinkt natuurlijk als een open deur, maar is het zeer zeker niet. Wie leest tegenwoordig de gebruiksaanwijzingen van componenten? Als het goed is zou een ieder dat moeten doen, maar (en dat is begrijpelijk) vanuit tijd is dat niet altijd mogelijk. Worden bijvoorbeeld de magneetschakelaars juist afgezekerd? Misschien is er een ‘snelle’ zekering nodig, in plaats van de standaard gebruikte ’trage’ variant. Dan kan bij een te hoge stroom ineens de functie door één fout buiten werking worden gezet.
Normen
De normen voor functional safety (de ISO 13849-1:2016 en de IEC 62061:2015) geven in een bijlage door middel van tabellen aan hoe er om gegaan kan worden met CCF. Wat hierin vooral van belang is om logisch na te denken over het ontwerp, rekening te houden met de gebruikte componenten en aan te geven hoe er in onderhoud met het systeem omgegaan moet worden.
Test
Bij backup systemen (en veiligheidssystemen) is het van belang dat er regelmatig wordt getest. Vaak kan er alleen op deze manier worden gecontroleerd of de functie juist werkt. De 112-storing laat zien dat ook meervoudig uitgevoerde systemen kunnen falen. Dit maakt het testen van functies alleen nog maar belangrijker. Dan kan (misschien) vroegtijdig een fout in het systeem worden voorkomen.
Storing tanksysteem
Op woensdag 24 juli 2019 konden vliegtuigen op Schiphol urenlang niet tanken. Het bedrijf wat de brandstof levert op Schiphol had een storing in het systeem. Na een ‘handmatige’ brandmelding is het systeem vanuit het veiligheidssysteem afgesloten. Echter lukte het niet meer om het systeem binnen korte tijd op te starten. Ondanks dat er meerdere back-up mogelijkheden waren om het systeem te kunnen gebruiken.
Deze storing zal weinig te maken hebben met CCF. Dit laat wel zien dat het van belang is om een systeem goed ontworpen te hebben, maar misschien nog wel belangrijker het testen en opzetten van de juiste procedures hoe te handelen. Zodat bij aanspraak van het veiligheidssysteem ook snel weer (na constatering van een veilige situatie) opgestart kan worden.
Update: 29 juli 2019
Bron
- Volkskrant.nl: KPN: Softwarefout was oorzaak van storing 112, drie backups lieten het afweten; 25-06-2019
- NOS.nl; KPN: 112-storing mogelijk door software-fout; 25-06-2019
- NOS.nl; KPN-storing legt telefonie urenlang plat en leidt vooral tot veel verwarring; 24-06-2019
- ISO 13849-1:2016; artikel 3.1.6, bijlage F
- Nu.nl; Politie oefende nooit scenario voor landelijke 112-storing, 04-07-2019
- NOS.nl; Tankbedrijf op Schiphol is ‘essentiële dienst’ die faalde; 25-07-2019
- HetParool.nl; Ex-topman AFS: ‘Het had nooit zo fout mogen gaan op Schiphol’; 26-07-2019