Outage report 9 april 2020
Zoals jullie gemerkt hebben was het forum net een paar minuten off-line.
In dit outage report staat een korte toelichting daarop.
Oorzaak en tijdlijn
Het forum draait op een zogeheten virtuele server: Een server die onder is gebracht op een grote fysieke server (een Type 1 Hypervisor) met veel geheugen, opslag en rekencapaciteit. Een deel van die ruimte en rekencapaciteit is gereserveerd voor de forumserver.
Op deze hypervisor draaien ook andere virtuele servers. En vanavond was ik als onderdeel van het standaard beheer bezig met het updaten van Ă©Ă©n van deze omgevingen. Daarbij was een herstart van die virtuele server vereist. En daar is het misgegaan: Ik heb het herstart-commando gegeven aan de onderliggende hypervisor en niet aan de virtuele server die moest worden herstart.
Het gevolg hiervan is dat ĂĄlle virtuele servers zijn uitgeschakeld, de hypervisor is opgestart, en daarna alle virtuele servers weer zijn geactiveerd. En dat is dus ook met de virtuele server gebeurd waar het forum op draait.
Tijdlijn:
- Om 20:17:12 kreeg de hypervisor het signaal om uit te schakelen
- Om 20:17:13 kreeg de forumserver het signaal om uit te schakelen
- Om 20:24:12 startte de hypervisor weer op
- Om 20:24:57 werd de forumserver weer opgestart
- Om 20:25:02 was de server weer gestart en werd de forumsoftware en de achterliggende database gestart. Dit proces heeft ongeveer 45 seconden geduurd.
De totale downtime van het forum komt daarmee op ongeveer 8 minuten.
Verbeteractie
Om te voorkomen dat dit nog een keer gebeurt heb ik gekeken naar de oorzaak (een zogeheten root cause of bronoorzaakanalyse). Deze fout was menselijk: Ik had niet goed gekeken.
De oplossing hiervoor is dan ook niet technisch maar procedureel, dus dat betekent dat ik voortaan op een andere manier de virtuele servers zal herstarten (niet via de managementomgeving van de hypervisor maar vanuit de virtuele server zelf).
Ten slotte
Sorry, dit was onhandig van me.
Of in de woorden van de grootfilosoof Douglas Adams: We apologise for the inconvenience.