Igår kväll råkade vi ut för ett längre avbrott i vårt nätverk, som påverkade tillgängligheten för samtliga tjänster hos oss. På grund av dess omfattning så vill vi här redovisa exakt vad som hände och vad vi gör för att undvika ett likadant avbrott igen.
FS Data har en redundant nätverksanslutning, med två separata förbindelser, via Telia. Denna anslutning hanteras av två väldigt kraftfulla routrar, anslutna till vår redundanta brandväggslösning (två separata maskiner likaså), som automatiskt fördelar trafik dem emellan utan några avbrott.
För en tid sedan började vi notera vissa återkommande och eskalerande nätverksstörningar, sk. packet loss, med de anslutningar som vi idag har i våra brandväggar. Vi utförde en genomgående felsökning, konsulterade vår brandväggsleverantör och beställde nya anslutningar, som ankom här denna vecka.
För att eliminera nätverksstörningarna, till dess att de nya brandväggsanslutningarna var installerade, så valde vi att temporärt lägga om nätverket enbart mot Telias primär anslutning/router. De nya anslutningarna för brandväggarna installeras nästa vecka och vi har inte haft något oplanerat avbrott eller anslutningsbyten hos Telia under två års tid.
Sedan gjorde ”Murphys lag” sig påmind.
Igår kl. 17:30 kopplade Telia oplanerat om trafiken från vår primära anslutning/router till vår sekundära motsvarighet. Detta orsakade avbrott i vårt nätverk och våra tekniker ingrep omedelbart. Kl. 17:39 kopplades trafiken tillbaka, vilket åter gav oss en förbindelse, men kl. 17:44 återgick vi ännu en gång till den sekundära anslutningen/routern med tillhörande avbrott.
Utan vidare information från Telia fick våra tekniker ”kämpa i mörkret”. De kopplade om våra anslutningar ett flertal gånger, med omkonfiguration (och omstarter) av brandväggarna därtill. Efter mycket intensivt arbete lyckades vi till slut få till det och kl. 19:10 var nätverksstörningen/avbrottet helt över.
Vi vill givetvis inte lägga all skuld för detta avbrott på Telia. Den temporära omläggningen av nätverket bidrog även till att återställningen tog längre tid än nödvändigt. Vi har nu vidtagit åtgärder så att en eventuell liknande, oplanerad, omkoppling av Telia kommer kunna återställas avsevärt snabbare.
De nya brandväggsanslutningarna är som sagt på plats hos oss och de kommer att installeras, i samarbete med externa konsulter från vår brandväggsleverantör, här redan nästa vecka. Därefter kommer ett avbrott som detta inte att kunna uppstå igen.
Vi får avslutningsvis be så hemskt mycket om ursäkt för denna nätverksstörning/avbrott. Utöver tidigare nämnda nya anslutningar så har vi sedan en längre tid tillbaka arbetat med att förstärka och ytterligare säkra hela vår nätverksmiljö. Under hösten kommer vi bl a att kunna hantera IPv6 och anslutningar från fler leverantörer än Telia.
Vi gör allt i vår makt för att leverera så snabba, säkra och stabila tjänster som möjligt till våra kunder. Vår målsättning är att uppnå 100 % tillgänglighet i vår nätverksmiljö och det är ett mål som vi arbetar oavbrutet mot.
Om ni har några frågor eller funderingar om detta, lämna då gärna en kommentar här nedan.