Att komma upp i tid

  • PUSHA

binero-uptime-alert-lr

Vår 42-tums upptidsskärm.

NERTID – att betalande kunder plötsligt inte kan använda sina webbplatser – är varken acceptabelt eller kul. Men i den verkliga världen där mänskliga och tekniska fel alltid kan inträffa så kan det hända. Och det gör det.

På Binero har vi idag en god tillgänglighet (upptid) och vi siktar på att bli bäst inom området, men så har det inte alltid varit.

Väckarklockan – mars 2008

För ett drygt år sedan var läget ett annat. Det nya Binero hade växtvärk, personal söktes och ny teknik introducerades, bl.a. infördes Linux på alla webbservrar. När allvarliga buggar samtidigt dök upp i FreeBSD så minskade tillgängligheten snabbt och i mars hade vi vår sämsta upptid någonsin.

Vi hade stirrat oss blinda på andra saker och missat fundamenta. Då blev jag fast besluten att hädanefter måste Binero sträva efter att ha den bästa upptiden i Sverige, helt enkelt.

Medvetenheten – man måste upp

För ett webbhotell som Binero är redan grundkraven höga. Vi har en datahall med hög säkerhet och redundant strömförsörjning, överlappande batterier, dieselmotorer, brandväggar och uppkopplingar ut ingår. Allt inom strömförsörjning testas live varje månad. Nu gällde det att nå ännu längre.

Som småföretagare var det inte speciellt svårt för mig att se driftsstörningarna ur ett kundperspektiv. Jag började försöka påminna kollegorna om hur kunden kan uppleva en driftsstörning om han är vd för ett företag med tio anställda och tusentals kunder när hemsida och e-post går ner under en arbetsdag mitt i högsäsongen – en dyr katastrof.

Totalt transparent tillgänglighet

binerodriftlrFör att visa att vi menar allvar med öppenhet och driftssäkerhet så lanserade vi redan i mars något som inget annat webbhotell i Sverige haft varken förr eller senare: en driftssida, www.binerodrift.se, där upptidsdata för varje individuell server levereras av en extern leverantör och visas upp helt öppet tillsammans med historik.

Sidan ligger hos en extern leverantör och drabbas inte om Bineros egna sidor skulle få problem. Här döljs inte problemen, utan alla kan se exakt vad som händer och när. För att säkerställa att verkligen alla ser detta har vi också satt upp en 42-tums skärm med upptids- och supportdata tre meter från hela support- och driftpersonalen. Vid störningar både låter och blinkar det.

Drift, teknik och miljö

VMware server virtualizationAtt Fredrik kom in och fick jobba som en dedikerad drifttekniker med ett helhetsansvar för detta gjorde också en stor skillnad. Strikta rutiner infördes för alla ändringar i systemet. Vad gäller systemet togs beslut om en stor investering för att virtualisera merparten av servrarna. Det gör att resurser omedelbart kan flyttas runt servrarna för att täcka upp vid behov.

Ovanstående åtgärder genomfördes och började ge effekt till hösten. Innan dess kom en nedgång under juni-juli då tekniska problem sammanföll med semestrarna. Jag införde krav på detaljerad rapportering vid varje avbrott. Vi skapade också en mer enhetlig miljö, där alla Windows- respektive Linux-servrar ska ha en exakt likadan struktur för större tillförlitlighet.

Med tiden har åtgärderna gett resultat och sedan september 2008 har branschtidningen Internetworlds definition av ”bra” upptid, 99,90% aldrig underskridits. Sedan december 2008 har upptiden varit över 99,96%.

Framtiden – tillgänglighet till tusen

Fel kan som sagt alltid smyga sig in – och på Binero varken kan eller kommer vi att vila på lagrarna om vi vill försöka att bli bäst inom upptid. Här finns en mängd åtgärder planerade, bland annat en helt lastbalanserad servermiljö, mer driftpersonal med konkreta ansvarsområden – nätverk, lagring, lastbalansering.

Till detta kommer regelbunden och utökad utbildning om varför, hur och när (alltid!) vi ska arbeta för att få en ännu högre tillgänglighet. På sikt kommer flera större åtgärder för att öka säkerheten och redundansen ytterligare.

Detta är en del av de saker som vi gjort, några vi ständigt gör och några vi kommer att göra. Men det är naturligtvis inte allt. Vår väg mot att bli ännu bättre är lång och detta är inte slutet, inte ens början på slutet – men kanske slutet på början.

Relaterade inlägg:

  1. Tummen upp!
  2. Tummen upp för Google WebFinger?
  3. Upp till kamp!
  4. Se upp! Här kommer MiniGeeks!
  5. Upp till Camp för sommaren! #SSWC
  • http://utvbloggen.se Jonas Lejon

    Härligt och se Anders! En eloge till Er!

  • http://cdsoft.se/ Henrik

    Mycket bra och informativ artikel.

  • Jonas

    Jag kan tipsa om att ni bör lägga ut namnservarna för binerodrift.se externt också.
    Om ni får problem på era namnservrar eller båda era internetanslutningar så fungerar inte heller sidan http://www.binerodrift.se.

  • http://www.binero.se Anders

    Jonas, helt rätt! Det har varit på gång länge men vi får skylla på att vi inte funnit någon tillräckligt driftsäker partner för detta ;)

  • http://www.joakimgreen.se/ Joakim Green

    @Jonas Faktum är att namnservrarna var det första jag också tittade när jag läste om en “extern leverantör”.

    Jag håller med Jonas att även den borde bytas till extern. Om den “extena leverantören” får problem samtidigt är nog världens undergång nära. ;)

  • Artur

    Ni presterar och verkar vara bäst på det mesta! Tyvärr är servern min sida finns på, Spirou bland de sämre när det gäller driftsäkerhet… I övrigt är ni riktigt bra på det mesta, speciellt support.

  • Kent

    Men hur är det med driftavbrott under helger?

    RATATA var nere i 31 minuter i helgen, och den har nertid på 43 minuter enbart i maj (rättare sagt, 19 dagar i maj):

    http://www.binerodrift.se/?sensorId=134&m=200905

  • http://www.binero.se Kjetil

    Hej Artur,

    Vi är medveten om att Spirou har haft mycket störningar på sistone
    som har orsakat turbulens och många korta nertider. Det är något vi
    lagt högsta prioritet på att lösa.

    Dels beror det på att vi har haft trubbel med några kunder som har
    visat sig dra enormt mycket resurser, samt vi har varit snälla och gett
    dom en andra chans för att åtgärda felen som dom har orsakat, detta har
    tyvärr inte lett till någon förbättring från dera sida.

    Men nu har vi tagit nödvändiga steg för att lösa problemet.

    I dag så räcker det att en kund får otroligt mycket
    besökare samtidigt på en tungladdad sida så kan det få konsekvenser för
    övriga på servern, något som är åtgärdat i vårt kommande system.

    Men vi beklagar givetvis djupt de störningar som har varit, och vi gör
    vårt bästa för att åtgärda dem snarast möjligt, förhoppningsvis skall
    de åtgärder vi har gjort hittills lösa de akuta problemen.

    Du är välkommen att kontakta oss om du har några frågor.

  • http://www.binero.se Kjetil

    Hej Kent,

    Precis som jag svarade Artur innan, vi ser vi allvarligt på alla driftstörningar. Dock så orsakas 90% av fallen av någon kund på samma server. Vi håller ett öga på servern just nu för att se om det sker något ovanligt som orsakas av kunder efter avbrottet som skedde i helgen.

    Dessa loggfiler blir otroligt stora så dom är inte på hela tiden, men det är enklare att spåra vilka kunder som drar resurser och orsakar problem på våra senaste Linux servrar som körs under Ubuntu, där har vi konfigurerat PHP att köra i CGI-läge och på sätt körs PHP filer som användaren direkt och inte “apache” som i detta fall. Nu får man hålla på att jämföra pid (process-id) med server-status sidan.

    Detta kommer att ändras inom kort när vi migrerar servern antingen till Ubuntu eller direkt till vår nya miljö efter sommaren.

    Återkom gärna om du har fler frågor.

  • Kent

    Igår skrev jag en kommentar där jag kritiserade nertider under helger. Att RATATA låg nere i 31 minuter i helgen…

    Nu är kommentaren borta. Vad i h-e betyder det?

  • http://www.binero.se Erik

    Hej Kent, vi modererar kommentarerna och därför publiceras både dina kommentarer och svar på dem nu. Vänliga hälsningar, Erik/Binero

  • http://www.recordpress.org Johan Linnarsson

    Hej!

    Läser att ni använder Ubuntu på Era (alla?) servrar. Då jag själv använder Ubuntu privat på mina datorer är det roligt att läsa att ni gör så även på server sidan. Om jag nu inte minns helt fel så skaffade ni först RedHat? Eller minns jag fel? Varför har ni i såfall bytt från Redhat till Ubuntu? Nyfiken ubuntu användare :)

  • http://www.binero.se Erik

    Hej Johan! Ja, idag använder vi Ubuntu på alla nya Linux-servrar. Anledningen är främst att vi upplever det som mer kostnadseffektivt än Red Hat. Vänliga hälsningar, Erik/Binero

  • http://fildelningsskuld.se/ Viktor

    Hej
    Jag har vid ett fåtal tillfällen märkt att mina sidor inte varit möjliga att nå men om jag kollar på binerodrift.se så syns inget som indikerar att nått är fel, vad beror detta på?
    T.ex. så råkar det vara på det viset just nu, jag försöker gå in på en av mina sidor http://fildelningsskuld.se/ men det är helt dött (andra sidor på samma server är lika döda), jag går in på http://www.binerodrift.se/?domain=fildelningsskuld.se och allt verkar vara online som det ska.

  • http://www.binero.se Melker

    @Viktor: Ibland blir applikationspoolerna överbelastade och då kommer sajterna gå trögt vara onåbara tills poolen startat om. Vi håller på att undersöka hur vi på ett bra sätt ska kunna ha övervakning även på pool-nivå.

  • Pingback: Kabelbrott till kontoret - telefon tillfälligt nere | Binero - bäst på domännamn, vänligast på webbhotell


Bäst i test två år i rad - Internetworld

Rekommenderas av InternetworldVi är prisade för vår goda support, höga funktionalitet och kontrollpanel.