Förra veckan, vecka 47, upplevde vi en omfattande störning på våra e-posttjänster. Störningen påverkade samtliga kunder med e-post hos oss och pågick under så pass lång tid att vi vill redovisa lite mer ingående vad som hände och vad vi har gjort för att undvika en liknande störning här framöver.
När störningen var aktuell så redovisades detta även på vår driftstatussida, med fortlöpande uppdateringar.
Vad var det som hände?
I måndags förra veckan, vid lunchtid, upptäckte våra tekniker att SMTP-köerna (köerna med utgående/inkommande e-post) i vår Microsoft Server Exchange-miljö ökade i en ovanligt hög takt. SMTP-köerna är dock fördelade över ett flertal servrar hos oss, för redundans/lastbalansering, och köbildningen uppstod inte på alla servrar samtidigt. När en kund fick problem och försökte igen så fungerade det, vilket ”maskerade” störningen en aning.
Hur löste vi det hela?
Våra tekniker började felsöka köbildningen så snart vi upptäckte den. Genom att starta om respektive SMTP-tjänst (inte server, utan tjänst på server) så arbetades även köerna av på de servrar som påverkades av störningen. Våra tekniker arbetade oavbrutet genom natten mellan måndag och tisdag, dock utan att finna en lösning.
På tisdagen tog vi därför kontakt med Microsoft i USA, för att lösa denna störning. Deras Exchange-specialister kom in och felsökte med våra tekniker och efter närmare 20 timmar hittade vi orsaken till köbildningen. Det visade sig att störningen berodde på en odokumenterad funktion i Exchange Server.
Under onsdagen introducerade vi en lösning i vår Exchange Server-miljö och sedan dess är störningen helt över. Våra tekniker och Microsoft fortsatte att övervaka SMTP-köerna över helgen och till början denna vecka, för att snabbt kunna upptäcka eventuella fel. Nu är vi dock säkra på att denna störning är helt löst.
Hur påverkades våra kunder?
Inledningsvis berördes inte alla kunder, tack vare vår lastbalanserade SMTP-lösning. I takt med att flera SMTP-tjänster slutade fungera så påverkades dock i princip alla kunder. Våra tekniker minskade påverkan genom att starta om SMTP-tjänsterna, men störningen var ändå märkbar.
Den e-post som inte kunde skickas/tas emot under störningen köades på våra (och andra avsändande) servrar. När störningen upphörde (samt vid omstarter av SMTP-tjänsterna) så levererades e-posten igen.
Vad vi har har sett i våra serverloggar, som vi har undersökt väldigt noga, så har 99,99 % av all e-post, som berördes av denna störning, blivit levererad. Ett mindre antal e-postmeddelanden, som skickades exakt i samma sekund som en av SMTP-tjänsterna slutade fungera, blev dock korrupta och kunde inte levereras.
Även om bara ett fåtal kunder förlorade aktuell e-post så får vi givetvis beklaga detta. Vi gör allt i vår makt för att undvika sådana här händelser – med redundans, lastbalansering osv – och det är första gången sedan vi gick över till Exchange Server 2007 som vi har varit med om detta.
Hur går vi nu vidare?
Förutom att vi har implementerat en teknisk lösning, direkt från Microsoft, så har vi även infört en begränsning av storleken på bifogade filer i e-postmeddelanden. Orsaken till störningen var relaterad till väldigt stora bifogade filer (på flera GB) i e-posten, så vi gör nu detta för att vara helt på den säkra sidan.
Nu har vi en begränsning på max 50 MB för bifogade filer i e-postmeddelanden som skickas via våra e-posttjänster. Om en fil är större än så, då får avsändaren ett felmeddelande.
Vi har även, sedan början av året, arbetat med att ersätta nuvarande version av Exchange Server-hos oss (EX2007) med nya Exchange Server 2013 (EX2013). Efter mycket planering, utveckling och tester så är vi nu i slutfas av detta projekt.
Målsättningen är att vi ska gå över till EX2013 här i vinter.
Med EX2013 kommer vi även att introducera en helt ny tjänst, för våra kunder, som möjliggör enkel upp/nedladdning av väldigt stora filer. Man laddar bara upp sin stora fil och får en länk som skickas till mottagaren istället. Denna tjänst kommer att vara effektivare, säkrare och snabbare än att skicka väldigt stora filer via e-post.
Mer information om vårt arbete med EX2013 och dess introduktion hos oss följer i bloggen här framöver.
Om ni har några frågor om detta, lämna då gärna en kommentar här nedan.