Che cos’è l’alta disponibilità?

L’alta disponibilità (HA) è una componente di un sistema tecnologico che elimina i singoli punti di guasto per garantire operazioni continue o tempi di attività per un periodo prolungato.

Tutte le organizzazioni usano una varietà di database e applicazioni critiche per il business, come data warehouse, applicazioni e-commerce, sistemi di gestione delle relazioni con i clienti (CRM), sistemi finanziari, gestione della catena di approvvigionamento e sistemi di business intelligence. Quando un sistema, un database o un’applicazione si guasta, queste organizzazioni richiedono una protezione ad alta disponibilità per mantenere i sistemi attivi e funzionanti e minimizzare il rischio di perdita di entrate, dipendenti improduttivi e clienti insoddisfatti.

I sistemi ad alta disponibilità incorporano cinque principi di progettazione:

  • Fanno automaticamente il failover a un sistema ridondante per riprendere un’operazione quando un componente attivo si guasta. Questo elimina i singoli punti di guasto.
  • Possono rilevare automaticamente i guasti a livello di applicazione quando accadono, indipendentemente dalle cause.
  • Assicurano nessuna perdita di dati durante un guasto del sistema.
  • Fanno automaticamente e rapidamente il failover a componenti ridondanti per minimizzare i tempi di inattività.
  • Forniscono la capacità di fare failover e failback manualmente per minimizzare i tempi di inattività durante la manutenzione pianificata.

TechTarget definisce HA come “un sistema o componente che è continuamente operativo per un periodo di tempo desiderabile. La disponibilità può essere misurata rispetto al ‘100% di operatività’ o al ‘non fallire mai’. Uno standard di disponibilità molto diffuso ma difficile da raggiungere per un sistema o un prodotto è noto come disponibilità “cinque 9″ (99,999%).”

Ma definiamo l’alta disponibilità in termini semplici:

L’alta disponibilità assicura che i vostri sistemi, database e applicazioni funzionino quando e come necessario.

Il “quando” prende in considerazione la percentuale di tempo in cui l’applicazione deve essere in funzione. Il “quando necessario” prende in considerazione il corretto funzionamento del sistema, del database e/o delle applicazioni senza perdita di dati.

A seconda del sistema e/o dell’applicazione, l’alta disponibilità sarà diversa. Per esempio, con le applicazioni mission-critical, come i vostri sistemi eCommerce, la disponibilità di quattro 9 (99,99%) è considerata uno standard industriale. Con una disponibilità del 99,99%, ci si può aspettare non più di 52,60 minuti di fermo macchina all’anno o 8,64 secondi di fermo macchina al giorno. Tuttavia, per applicazioni e sistemi non critici, come un singolo guasto al desktop, l’alta disponibilità può essere di due 9 (99%), che equivale a 8,77 ore di fermo macchina all’anno o 1,44 minuti di fermo macchina al giorno. Quando si misura il tempo di inattività accettabile, è importante considerare:

  • Tempo di inattività non pianificato (ad es, guasti hardware o software)
  • Il tempo di inattività pianificato necessario per la manutenzione hardware e software di routine
  • Il tempo di inattività a livello di database e applicazioni

La tua scelta per l’alta disponibilità dipende da molti fattori, incluso quanto le applicazioni sono critiche per il business, se i clienti sono colpiti, quanto spesso le applicazioni vengono eseguite, quanti utenti sono interessati, quanto velocemente un database o un’applicazione deve fare failover al sistema ridondante e quanta perdita di dati è tollerabile.

Metriche di alta disponibilità: RTO e RPO

Le due metriche normalmente usate per valutare la HA (e anche il Disaster Recovery (DR)) sono il Recovery Time Objective (RTO) e il Recovery Point Objective (RPO).

  • RTO è la durata massima tollerabile di qualsiasi interruzione. Le applicazioni di elaborazione delle transazioni online hanno in genere gli RTO più bassi, e quelle che sono mission-critical hanno spesso un RTO di pochi secondi.
  • RPO è la quantità massima di perdita di dati che può essere tollerata quando si verifica un guasto. Per HA, RPO è spesso zero per specificare che ci dovrebbe essere zero perdita di dati in tutti gli scenari di guasto.

Tuttavia, c’è una differenza tra quali RTO e RPO si possono raggiungere per supportare l’alta disponibilità rispetto al disaster recovery. Con l’HA, la replica dei dati può essere sincrona perché i componenti ridondanti sono sul vostro ambiente LAN. I database attivi e standby possono essere aggiornati simultaneamente, consentendo recuperi completi, automatici e in tempo reale che possono soddisfare gli RTO e gli RPO più esigenti. Di conseguenza, l’istanza standby è “calda” e sincronizzata con l’istanza attiva, quindi è pronta a subentrare immediatamente in caso di guasto.

Tuttavia, per recuperare sistemi, software e dati in caso di disastro è necessario che i componenti ridondanti siano su una rete ad ampio raggio (WAN). Questo è importante perché è necessario mantenere i componenti ridondanti in una posizione geografica lontana dall’istanza attiva. Ma con una WAN, la replica dei dati è asincrona per evitare un impatto negativo sulle prestazioni di throughput. Questo significa che gli aggiornamenti alle istanze standby saranno in ritardo rispetto agli aggiornamenti fatti all’istanza attiva, con un conseguente ritardo durante il processo di recupero. Poiché i disastri sono rari, un certo ritardo può essere tollerabile e dipende da (a) quanto è critico per il vostro business ottenere il più basso RTO e RPO possibile e (b) quanto budget potete allocare per ottenere il miglior RTO e RPO.

Come SIOS vi aiuta a raggiungere l’alta disponibilità

SIOS offre un’unica soluzione per soddisfare sia l’alta disponibilità che le esigenze di disaster recovery su un’ampia varietà di sistemi operativi, ambienti infrastrutturali e applicazioni, compresi SAP, SQL Server, Oracle e altri ambienti in esecuzione in configurazioni di storage condiviso basate su SAN o in configurazioni di storage dei dati locali senza SAN.

  • Ambiente Windows: Se aggiunto a un ambiente Windows Server Failover Cluster (WSFC), SIOS DataKeeper consente di creare un cluster SANless, dove i cluster di storage condiviso sono impossibili o poco pratici, o di aggiungere la replica per la protezione di emergenza nei cluster Windows basati su SAN. La replica veloce ed efficiente basata su host sincronizza lo storage locale sui nodi locali e remoti del cluster, creando un cluster SANLess in qualsiasi combinazione di ambienti fisici, virtuali o cloud.
  • Ambienti Linux: SIOS Protection Suite per Linux è una soluzione software di clustering confezionata che utilizza SIOS LifeKeeper e SIOS DataKeeper per fornire una combinazione strettamente integrata di clustering failover ad alta disponibilità, monitoraggio continuo delle applicazioni, replica dei dati e politiche di ripristino configurabili per proteggere le applicazioni e i dati business-critical da tempi di inattività e disastri. SIOS Protection Suite permette di costruire cluster SAN o SANLess utilizzando un’ampia gamma di dispositivi di archiviazione, tra cui direct-attached storage, iSCSI e Fibre Channel. SIOS Protection Suite per Linux supporta tutte le principali distribuzioni Linux, tra cui Red Hat Enterprise Linux, SUSE Linux Enterprise Server, CentOS e Oracle Linux.

Con le soluzioni SIOS, l’RPO è sempre zero e l’RTO dipende dall’applicazione, ma in genere da 30 secondi a pochi minuti per alcune applicazioni. Discutiamo il caso di studio “SIOS in azione” di un cliente presso la più grande azienda di vendita al dettaglio della Svizzera.

Migros raggiunge la continuità critica del suo sistema POS con le soluzioni ad alta disponibilità SIOS

Migros è la più grande azienda di vendita al dettaglio della Svizzera, la più grande catena di supermercati e il maggior datore di lavoro con più di 100.000 dipendenti. È anche uno dei quaranta maggiori rivenditori al dettaglio del mondo. Collaborando con Realstuff Informatik AG, un fornitore di servizi IT con sede in Svizzera e rivenditore di soluzioni SIOS, Migros stava cercando di sostituire il suo sistema POS (Point of Sale) con una nuova piattaforma che fosse più efficiente da utilizzare e che potesse ridurre al minimo la minaccia di tempi di inattività.

Il nuovo sistema POS fornisce informazioni sui prezzi e sull’assortimento dei prodotti nei 650 negozi Migros e il rivenditore aveva bisogno di una soluzione ad alta disponibilità per sostenere le vendite quotidiane. Senza un sistema HA, i dipendenti non potevano prezzare i prodotti o pesare le merci in caso di guasto del sistema, portando le operazioni a un punto morto. Dopo aver valutato le opzioni, Migros ha deciso che voleva un ambiente server open-source che offrisse alta disponibilità e protezione continua dei dati, fosse indipendente da un ambiente virtuale e potesse essere gestito internamente dal personale IT dell’azienda. Per rispondere a questi requisiti, il team ha scelto SIOS Protection Suite per Linux per la replicazione per salvaguardare i dati dei POS.

Per la progettazione del sistema, la formazione dei clienti e il supporto in lingua madre, Realstuff ha collaborato con il centro di competenza e supporto SIOS per l’Europa centrale e orientale, con sede a Dresda, Germania e gestito da Computer Concept. Per Migros era importante ottenere un supporto 24x7x365 durante l’orario di ufficio regionale dal Centro di Competenza e Supporto.

Realstuff ha implementato la soluzione ad alta disponibilità SIOS Protection Suite per monitorare costantemente i server POS e replicare i dati. In ogni punto vendita, vengono utilizzati due server per garantire una protezione continua dei dati. Se un server si guasta, la seconda istanza assume il lavoro istantaneamente. Inoltre, entrambi i server replicano le risorse di dati sul sistema di monitoraggio. Leggi l’intero case study di Migros qui.

Pensieri finali

Il centro regionale di competenza e supporto si è consultato con Realstuff per fornire informazioni e indicazioni sull’implementazione e il lancio e ha condotto un workshop di formazione di tre giorni per formare il team Migros. Richard Huber, manager e membro della direzione di Realstuff, ha commentato dopo l’implementazione che i vantaggi della soluzione ad alta disponibilità di SIOS sono la sua flessibilità, affidabilità, facilità d’uso e la garanzia che i dati siano sempre sincronizzati.

Oggi, Migros ha soddisfatto i suoi requisiti di HA con la soluzione SIOS, facile da usare, che fornisce un monitoraggio continuo di server, storage, applicazioni, database e connessioni di rete per individuare i punti di errore, ridurre i tempi di inattività, mantenere la connettività dei clienti e fornire un accesso ininterrotto ai dati.

Per maggiori informazioni sulle soluzioni SIOS e su come SIOS può aiutarvi a raggiungere l’HA in un ambiente SQL Server, potete leggere “Why Clustering for SQL Server High Availability” qui.

Vedi i post recenti del blog sulla disponibilità.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.