Høj tilgængelighed?

Høj tilgængelighed (HA) er en komponent i et teknologisk system, der eliminerer enkelte fejlpunkter for at sikre kontinuerlig drift eller oppetid i en længere periode.

Alle organisationer bruger en række forretningskritiske databaser og applikationer, f.eks. datalagre, e-handelsapplikationer, CRM-systemer (Customer Relationship Management), finansielle systemer, supply chain management og business intelligence-systemer. Når et system, en database eller et program svigter, kræver disse organisationer beskyttelse med høj tilgængelighed for at holde systemerne i gang og minimere risikoen for tab af indtægter, uproduktive medarbejdere og utilfredse kunder.

Højtilgængelige systemer indeholder fem designprincipper:

  • De går automatisk over til et redundant system for at genoptage en operation, når en aktiv komponent svigter. Dette eliminerer single point of failure.
  • De kan automatisk registrere fejl på applikationsniveau, når de opstår, uanset årsagerne.
  • De sikrer, at der ikke sker nogen form for datatab under en systemfejl.
  • De skifter automatisk og hurtigt til redundante komponenter for at minimere nedetiden.
  • De giver mulighed for manuelt failover og failback for at minimere nedetid under planlagt vedligeholdelse.

TechTarget definerer HA som “et system eller en komponent, der er kontinuerligt funktionsdygtig i en ønskelig lang periode. Tilgængelighed kan måles i forhold til “100 % funktionsdygtig” eller “aldrig svigtende”. En udbredt, men svært opnåelig standard for tilgængelighed for et system eller produkt er kendt som ‘fem 9’ere’ (99,999 %) tilgængelighed.”

Men lad os definere høj tilgængelighed i enkle vendinger:

Høj tilgængelighed sikrer, at dine systemer, databaser og applikationer fungerer, når og efter behov.

Det “når” tager højde for den procentdel af tiden, som applikationen skal være oppe og køre. “Efter behov” tager hensyn til, at systemet, databasen og/eller programmerne skal fungere korrekt uden tab af data.

Høj tilgængelighed vil være forskellig alt efter systemet og/eller programmet. For eksempel betragtes fire 9’ere (99,99 %) tilgængelighed som en industristandard for forretningskritiske applikationer, som f.eks. dine e-handelssystemer. Med en tilgængelighed på 99,99 % kan du ikke forvente mere end 52,60 minutters nedetid om året eller 8,64 sekunders nedetid om dagen. For ikke-kritiske applikationer og systemer, f.eks. en enkelt desktopfejl, kan høj tilgængelighed dog være to 9’ere (99 %), hvilket svarer til 8,77 timers nedetid om året eller 1,44 minutters nedetid om dagen. Når du måler acceptabel nedetid, er det vigtigt, at du tager hensyn til:

  • Uplanlagt nedetid (f.eks, hardware- eller softwarefejl)
  • Den planlagte nedetid, der er nødvendig for rutinemæssig vedligeholdelse af hardware og software
  • Nedtid på database- og applikationsniveau

Dit valg af høj tilgængelighed afhænger af mange faktorer, herunder hvor kritiske applikationerne er for virksomheden, om kunderne påvirkes, hvor ofte applikationerne kører, hvor mange brugere der påvirkes, hvor hurtigt en database eller applikation skal failover til det redundante system, og hvor meget datatab der kan tolereres.

Høj tilgængelighedsmålinger: RTO og RPO

De to målinger, der normalt bruges til at vurdere HA (og også Disaster Recovery (DR)), er Recovery Time Objective (RTO) og Recovery Point Objective (RPO).

  • RTO er den maksimalt tolerable varighed af en udfaldstid. Online-transaktionsbehandlingsapplikationer har generelt de laveste RTO’er, og applikationer, der er missionskritiske, har ofte en RTO på kun få sekunder.
  • RPO er den maksimale mængde datatab, der kan tolereres, når en fejl opstår. For HA er RPO ofte nul for at angive, at der skal være nul datatab under alle fejlscenarier.

Der er imidlertid en forskel på, hvilke RTO’er og RPO’er du kan opnå for at understøtte høj tilgængelighed i forhold til disaster recovery. Med HA kan datareplikering være synkron, fordi dine redundante komponenter befinder sig i dit LAN-miljø. Aktive og standby-databaser kan opdateres samtidig, hvilket muliggør fuld, automatisk genoprettelse i realtid, som kan opfylde de mest krævende RTO’er og RPO’er. Som følge heraf er din standby-instans “varm” og synkroniseret med din aktive instans, så den er klar til straks at tage over i tilfælde af en fejl.

For at kunne gendanne systemer, software og data i tilfælde af en katastrofe kræves det imidlertid, at de redundante komponenter befinder sig på et WAN-netværk (Wide Area Network). Dette er vigtigt, fordi du skal have redundante komponenter på en geografisk placering væk fra den aktive instans. Men med et WAN er datareplikering asynkron for at undgå negativ påvirkning af gennemstrømningsydelsen. Det betyder, at opdateringer til standby-instanser vil være forsinket i forhold til opdateringer til den aktive instans, hvilket resulterer i en forsinkelse under genoprettelsesprocessen. Da katastrofer er sjældne, kan en vis forsinkelse være tolerabel og afhænger af (a) hvor kritisk det er for din virksomhed at opnå den lavest mulige RTO og RPO og (b) hvor stort et budget du kan afsætte til at opnå den bedste RTO og RPO.

Hvordan SIOS hjælper dig med at opnå høj tilgængelighed

SIOS tilbyder en enkelt løsning til at opfylde både behov for høj tilgængelighed og disaster recovery på tværs af en lang række forskellige operativsystemer, infrastrukturmiljøer og applikationer, herunder SAP, SQL Server, Oracle og andre miljøer, der kører i SAN-baserede, delte lagringskonfigurationer eller SAN-løse, lokale datalagringskonfigurationer.

  • Windows-miljø: Når SIOS DataKeeper tilføjes til et Windows Server Failover Cluster-miljø (WSFC), kan du med SIOS DataKeeper oprette en SAN-løs klynge, hvor klynger med delt lagring er umulige eller upraktisk, eller tilføje replikering til katastrofebeskyttelse i dine SAN-baserede Windows-klynger. Hurtig, effektiv værtsbaseret replikering synkroniserer lokal lagring på lokale og eksterne klyngenoder, hvilket skaber en SANLess klynge i enhver kombination af fysiske, virtuelle eller cloud-miljøer.
  • Linux-miljøer: SIOS Protection Suite for Linux er en pakket softwareløsning til clustering, der bruger SIOS LifeKeeper og SIOS DataKeeper til at levere en tæt integreret kombination af failover clustering med høj tilgængelighed, kontinuerlig applikationsovervågning, datareplikering og konfigurerbare genoprettelsespolitikker for at beskytte dine forretningskritiske applikationer og data mod nedetid og katastrofer. SIOS Protection Suite giver dig mulighed for at opbygge SAN- eller SANLess-klynger ved hjælp af en bred vifte af lagerenheder, herunder direkte tilknyttet lagring, iSCSI og Fibre Channel. SIOS Protection Suite til Linux understøtter alle større Linux-distributioner, herunder Red Hat Enterprise Linux, SUSE Linux Enterprise Server, CentOS og Oracle Linux.

Med SIOS-løsninger er RPO altid nul, og RTO afhænger af applikationen, men er typisk 30 sekunder til et par minutter for nogle applikationer. Lad os diskutere en kundes casestudie “SIOS in action” hos Schweiz’ største detailhandelsvirksomhed.

Migros opnår kritisk forretningskontinuitet af sit POS-system med SIOS High Availability Solutions

Migros er Schweiz’ største detailhandelsvirksomhed, landets største supermarkedskæde og den største arbejdsgiver med mere end 100.000 ansatte. Det er også en af de fyrre største detailhandlere i verden. I samarbejde med Realstuff Informatik AG, en schweizisk IT-serviceudbyder og forhandler af SIOS-løsninger, ønskede Migros at udskifte sit POS-system (Point of Sale) med en ny platform, der var mere effektiv at drive og kunne minimere truslen om nedetid.

Det nye POS-system leverer pris- og produktsortimentsoplysninger i Migros’ 650 butikker, og detailhandleren havde brug for en løsning med høj tilgængelighed til at understøtte det daglige salg. Uden et HA-system kunne medarbejderne ikke prissætte produkter eller veje varer, hvis der var en systemfejl, hvilket ville sætte driften i stå. Efter at have evalueret mulighederne besluttede Migros, at de ønskede et open source-servermiljø, der gav høj tilgængelighed og kontinuerlig databeskyttelse, som var uafhængigt af et virtuelt miljø og kunne drives internt af virksomhedens it-medarbejdere. For at opfylde disse krav valgte holdet SIOS Protection Suite for Linux til replikering for at beskytte POS-data.

For systemdesign, kundeuddannelse og support på modersmålet samarbejdede Realstuff med SIOS Competence and Support Center for Central and Eastern Europe, der er baseret i Dresden, Tyskland, og som drives af Computer Concept. Det var vigtigt for Migros at få 24x7x365 support i den regionale kontortid fra kompetence- og supportcentret.

Realstuff implementerede SIOS Protection Suite-løsningen med høj tilgængelighed til konstant at overvåge POS-serverne og replikere data. På hver butikslokalitet anvendes der to servere for at sikre kontinuerlig databeskyttelse. Hvis den ene server svigter, overtager den anden instans arbejdet øjeblikkeligt. Desuden spejler begge servere dataaktiver på overvågningssystemet. Læs hele Migros-casestudiet her.

Sluttanker

Det regionale kompetence- og supportcenter rådførte sig med Realstuff for at give indsigt i og vejledning om implementeringen og lanceringen og gennemførte en tre-dages træningsworkshop for at uddanne Migros-teamet. Richard Huber, manager og medlem af direktionen hos Realstuff, kommenterede efter implementeringen, at fordelene ved SIOS-højtilgængelighedsløsningen var dens fleksibilitet, pålidelighed, brugervenlighed og sikkerhed for, at data altid er synkroniseret.

I dag har Migros opfyldt sine krav til HA med SIOS’ brugervenlige løsning, som giver løbende overvågning af servere, storage, applikationer, databaser og netværksforbindelser for at opdage fejlpunkter, reducere nedetid, opretholde klientforbindelser og give uafbrudt dataadgang.

For mere information om SIOS-løsninger, og hvordan SIOS kan hjælpe dig med at opnå HA i et SQL Server-miljø, kan du læse “Why Clustering for SQL Server High Availability” her.

Se de seneste blogindlæg om tilgængelighed.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.