Rapportering om våra lagringsproblem
fredag, mars 15th, 2013De senaste åren har Binero vuxit mer än något annat webbhotell i branschen, detta har medfört en hel del tekniska utmaningar, en av dem lagringsplattformen.
Våren 2012 införde vi ett helt nytt lagringssystem som skulle hantera all vår kunddata. Ett stort antal system togs in och testades innan vi till slut gjorde vårt val.
Ett av kriterierna för systemet var att det skulle vara skalbart på flera nivåer, det vill säga att om man lade till en låda med hårddiskar så skulle även CPU, minne och nätverksaccess öka. Detta utesluter de vanligaste lagringssystemen, de så kallade “scale-up”-systemen och lämnar oss kvar med de så kallade “scale-out”-systemen. Dessa system är även redundanta och går en disklåda sönder så påverkar inte detta driften.
Det valda systemet används av stora kända leverantörer över hela världen och nådde upp till de krav vi hade ställt på ett lagringssystem. Leverantören av vår lagring är en av världens största leverantörer.
Men vad hände då?
Kort efter det att systemet hade tagits i produktion började vi snabbt se problem, vår leverantörs rekommendation på lösning var att införskaffa ännu fler disklådor samt SSD-diskar, sagt och gjort, dessa anlände i slutet av sommaren.
Under hösten fortsatte problemen och i december fick vi ett större avbrott som visade sig bero på en bugg i firmwaren, lagringssystemets programvara. Vår leverantör lyckades dock lokalisera och åtgärda buggen och systemet flöt på ett tag tills nästa bugg uppdagades och ytterligare uppdateringar gjordes men bara för att ytterligare buggar skulle visa sig. Och där är vi idag.
Problemet ligger nu i att alla disklådor har buggen och orsakar problem i vår miljö. Buggen visar sig i form av att låsningar sker mot filerna och dessa kan inte accessas. När detta sker måste samtliga disklådor startas om och även så samtliga webbservrar, men först måste låsningarna lösas. Detta är tidskrävande och inte helt problemfritt.
Idag ligger ärendet på högsta nivå hos vår leverantör och de arbetar 24 timmar om dygnet för att lokalisera felet.
Hur går vi vidare från det här?
Vi förstår att alla problem skapar frustration och irritation hos våra kunder, det gör det även hos oss. Vår verksamhet baseras på att leverera en driftsäker och stabil tjänst till våra kunder, något som vi har misslyckats att göra med nuvarande lagringssystem.
Första steget i en lösning är självklart att lösa de mest akuta problemen och de buggar som ligger bakom driftstörningarna. I nästa steg måste vår leverantör ta fram en hållbar plan för att en gång för alla lösa dessa problem och säkerhetsställa att vi inte hamnar i samma situation igen. Visst kan vi byta lagringsleverantör, men det är både tidskrävande och kostsamt, men är det steget vi måste ta så gör vi självklart det.
Vår leverantör har lovat att de ska kunna hantera detta och vi har tillsammans med dem tagit fram en plan som påbörjas omgående.
Jag vill försäkra er kunder om att vi tar detta på största allvar och jobbar med att lösa problemen en gång för alla, inget har högre prioritet än detta.
Jag ber samtliga kunder om ursäkt för alla problem detta har orsakat er.
Med vänlig hälsning
Anders Aleborg, VD
P.S. Det jag just nu skulle vilja göra med vårt lagringssystem är det här:




Vi är prisade för vår goda support, höga funktionalitet och kontrollpanel.