Ny mera skalbar och kraftfull lagringslösning

  • PUSHA

Binero-Johan-KummenejePå Binero växer vi fortsatt snabbt. Med de mycket stora webbpaketen som vi erbjuder innebär det att kraven på lagringslösningar är höga och ständigt ökar. När vår Netapp inte längre kunnat byggas ut som vi vill har vi efter utvärdering av olika leverantörer nu implementerat en ny mera framtidssäker, skalbar och kraftfull lösning, EMC Isilon. Härnedan Bineros CTO (Chief Technical Officer) Johan Kummeneje om hur, varför och våra lärdomar på vägen från ScaleUp till ScaleOut.

 

Från början

Från starten av Binero 2.0 och Bineros virtualisering så har en del av de ständiga begränsningar som återkommit varit kopplade till lagringslösningarna tillsammans med att så många nya kunder hela tiden strömmar till. Under 2009 införskaffades en Netapp med fyra disklådor som “skulle räcka hur länge som helst”, vilket i praktiken innebar ett antal månader och sen var utrymmet slut. Varje tillbyggnadssteg är stort och relativt kostsamt.

När vi skaffade ytterligare fyra disklådor till samma system, blev problemet att huvudena inte hängde riktigt med längre efter ett tag. Det innebär inte att Netapp systemet är dåligt, utan att vår last mot det lagringssystemet då var för mycket för den att hantera.

Lasten består av två komponenter, dels lagring för de virtuella maskinerna (VMDK-filer) och dels kunddata i form av webfiler och mail. Lagring för virtuella maskiner fungerar bra för Netapp, men med tanke på att våra kunddata i topparna kräver uppemot 100 tusen IOPS (Input/Output Operations per Second) så klarade inte huvudena av att sköta bägge delarna på ett bra sätt. Vi lärde oss fort att hantera detta men kan inte använda lagringslösningen som vi vill.

Detta ledde till ett årslångt arbete med att utarbeta flera olika lagringssystem, men för att lösa de löpande behoven under fram till våren 2011 fick vi förlita oss på nya Netapp-enheter.

 

Utvärderingen

Under 2011 utvärderades flera olika lagringssystem med inriktning på att kunna hantera vårt kunddata, där vi har arbetat med att utvärdera NetApps C-mode lösning, HP’s Lefthand lösning (med X9300 huvuden), Oracle Sun ZFS Storage appliance, Dell Compellent (dock utan något NFS/SMB-huvud då vi fick förslag på tre olika system för det).

I och med att utvärderingsarbetet drog ut på tiden, ställde EMC upp med ett lånesystem för att överbrygga ett par månader med en VNX-lösning som fungerade tillfredsställande för virtuella maskiner.

 

Lärorik process

Det har varit en lång läroperiod där vi lärt oss mycket om våra egna system, men även hur vi ska växa för framtiden och vilka problem som finns med olika lösningar. T.ex. är vår erfarenhet att använda automatisk tiering på lagringssystemet för virtuella maskiner inte bra, vilket tyvärr har visat sig då access börjar ske mot långsam nearline-SAS disk (eller SATA som den även kallas) och prestanda har dykt fullständigt.

Vi har även sett att lösningar som är s k ScaleUp, dvs att man kopplar på fler lådor på samma huvuden, tyvärr inte skalar tillräckligt bra eller i lämplig steg. Att kunna skala i lagom stora steg, t ex 10 TB i taget och få prestanda och kapacitet på diskarna, samt prestanda på huvud och nätverksanslutningar är viktigt för oss så att vi inte behöver köpa på oss onödigt mycket lagring, utan snabbt kan följa behovet. Att använda en klustrad lagringslösning, eller s k ScaleOut, innebär att kapacitet och prestanda hela tiden kan byggas ut i små steg efterhand som behovet ökar. Till skillnad från en konventionell lagringslösning så får systemet direkt extra processorkraft och bandbredden mot servern ökar när en ny diskenhet läggs till.

 

Valet av lösning

Binero-J-Kummeneje-EMC-IsilonI valet av lösning kom givetvis även sådana variabler med som hur mycket fysiskt utrymme en lösning tar, hur mycket lösningen kostar samt hur långt den kan skala. T ex HP’s lösning skulle ta närmare tre skåp för samma lagringsmängd som Netapp skulle ta ca ett halvt skåp för.

Utifrån en sammanvägd bedömning och testning fattade vi beslut om att införskaffa ScaleOut-lösningen Isilon från EMC för att hantera all kunddata, och fortsätta använda våra införskaffade NetAppar till lagring av virtuella maskiner.

Isilon-systemet är organiserat som ett kluster med gemensam administration. Olika noder i klustret kan ta över varandras uppgifter och därmed ge mycket god feltolerans. Kapaciteten är upp till 12 terabyte per prestandanod och med plats för 144 noder i ett kluster ger det gott om utrymme för tillväxt.

Systemet kan också få en lång livslängd. Även om man efter hand köper till nya lagringsenheter med större kapacitet och bättre prestanda så kan dessa fogas in i systemet och fungera med befintlig utrustning. “Forklift Upgrade” ska inte existera.

 

Installation

Vi införskaffade initialt två system, ett för produktionsanvändning och ett för replikering, vilket innebär att all data replikeras (kopieras) över till replikan flera gånger per dag för att så långt som möjligt minska risken för dataförluster, vilket under senaste året har drabbat andra leverantörer.

Efter trettonhelgen 2012 gjordes grundinstallationen av vårt Isilonsystem tillsammans med teknisk kompetens från EMC och i början av februari las all mail över på Isilonsystemet. Det dröjde ytterligare två månader innan vi kunde lägga över allt webmaterial och den främsta orsaken till det var helt enkelt inställningar som skulle anpassas för autentiseringen, men även att det rör sig om åtskilliga TB som består av många små filer, vilket tar tid att kopiera.

 

Skarpt läge

I början av april flyttade vi efter att ha gjort ett antal tester mot Isilonsystemet för NFS/SMB webplatser, över så att Isilon användes av webservrarna i Binero 2.0. Alla linuxbaserade lösningar fungerade alldeles utmärkt eftersom de använder NFS-protokollet. Tyvärr råkade vi ut för en del problem på Windows-servrarna som inte synts vid testning.

En av åtgärderna som vidtogs under våren för våra IIS:er var att gå från många servrar med mindre minne och cpu till att ha ett fåtal servrar men med mer minne och cpu, eftersom vi såg ett beteende på dem där applikationspoolerna blev nedstängda och omkompilering skedde konstant beroende på att minnet tog slut.

Det innebar att servrarna blev mindre en flaskhals, och ett problem synliggjordes mot lagringslösningen genom att det var relativt vanligt att IIS-siterna svarade med felkod 500.19. En tung site med många besökare kunde vara på flera IIS-noder samtidigt, och hade då samma filer öppna flera gånger, vilket tog oss över de begränsningar som finns i Isilon. Den lösning som har visat sig fungera för att ta bort problemet är att lägga till fler lagringsnoder i Isilon-klustret samt att ställa om så att en IIS-site bara är aktiv på en IIS-nod i taget.

 

Nuläge: mera skalbart och snabbt system

Under sommaren och tidig höst har vi dubblerat antalet noder i Isilon-lösningen för att kunna fortsätta leverera bra prestanda och ha utrymme kvar, och i mitten av oktober påbörjade vi omställningarna i våra lastbalanserare till att skicka en webbsajt till en enda webbnod, vilket är avklarat för våra kunder på IIS- och Litespeed-servrar. Detta kommer även genomföras för våra Apache-baserade servrar.

Sedan våren 2012 har alla kunddata för Linuxservrar lagts på Isilon och en prestandaförbättring har märkts. Vi vet nu att systemet skalar som det ska och vi behöver inte ta ner någon av kundernas sajter eller tjänster när vi ska lyfta in ny hårdvara. Systemet kräver också lite underhåll, vilket gör att vi kan fokusera på att studera och förbättra det.

Sammantaget innebär detta att problemen med lagringen är över. Tack vare de åtgärder vi vidtagit bör du som kund nu slippa alla problem orsakade av det här.

Men det betyder inte att vi arbetet med vår storage är över, vi arbetar kontinuerligt med att hitta prestandförbättringar. Bland annat har vi nyligen installerat SSD-diskar i samtliga storagenoder, SSD-diskarnas uppgift är att snabbare ta hand om metacachen för de ca 500 000 000 filer som systemet hanterar. Med ambitionsnivån “bäst” kan vi aldrig sluta arbeta med förbättringar, helt enkelt.

Johan Kummeneje har även intervjuats av Cygate om den nya lagringslösningen. Förutom videointervjun ovan finns även en längre intervju i text här.


Bäst i test två år i rad - Internetworld

Rekommenderas av InternetworldVi är prisade för vår goda support, höga funktionalitet och kontrollpanel.