O que é High Availability?

High availability (HA) é um componente de um sistema tecnológico que elimina pontos únicos de falha para assegurar operações contínuas ou tempo de atividade por um período prolongado.

Todas as organizações utilizam uma variedade de bancos de dados e aplicações críticas para o negócio, tais como data warehouses, aplicações de comércio eletrônico, sistemas de gerenciamento de relacionamento com clientes (CRM), sistemas financeiros, gerenciamento da cadeia de suprimentos e sistemas de business intelligence. Quando um sistema, banco de dados ou aplicativo falha, essas organizações requerem alta disponibilidade de proteção para manter os sistemas em funcionamento e minimizar o risco de perda de receita, funcionários improdutivos e clientes infelizes.

Sistemas altamente disponíveis incorporam cinco princípios de projeto:

  • Falham automaticamente em um sistema redundante para retomar uma operação quando um componente ativo falha. Isso elimina pontos únicos de falha.
  • Eles podem detectar automaticamente falhas em nível de aplicação à medida que elas acontecem, independentemente das causas.
  • Eles garantem nenhuma perda de dados durante uma falha do sistema.
  • Eles detectam automática e rapidamente falhas em componentes redundantes para minimizar o tempo de inatividade.
  • Fornecem a capacidade de failover e failback manual para minimizar o tempo de inatividade durante a manutenção planejada.

TechTarget define HA como “um sistema ou componente que está continuamente operacional por um período de tempo desejavelmente longo”. A disponibilidade pode ser medida em relação a “100% operacional” ou “nunca falhando”. Um padrão de disponibilidade amplo mas difícil de alcançar para um sistema ou produto é conhecido como ‘cinco 9s’ (99,999%) de disponibilidade”

Mas vamos definir Alta Disponibilidade em termos simples:

Alta Disponibilidade garante que seus sistemas, bancos de dados e aplicações operem quando e conforme necessário.

O “quando” leva em consideração a porcentagem de tempo que a aplicação deve estar em funcionamento. O “quando necessário” leva em consideração a operação adequada do sistema, banco de dados e/ou aplicativos sem perda de dados.

Dependente do sistema e/ou aplicativo, a alta disponibilidade será diferente. Por exemplo, com aplicações de missão crítica, como seus sistemas de eCommerce, quatro 9s (99,99%) de disponibilidade é considerado um padrão da indústria. Com 99,99% de disponibilidade, você não pode esperar mais de 52,60 minutos de inatividade por ano ou 8,64 segundos de inatividade por dia. No entanto, para aplicações e sistemas não críticos, como uma única falha no desktop, a alta disponibilidade pode ser de dois 9s (99%), o que equivale a 8,77 horas de inatividade por ano ou 1,44 minutos de inatividade por dia. Ao medir o tempo de inatividade aceitável, é importante que você considere:

  • Tempo de inatividade não planejado (por exemplo, falhas de hardware ou software)
  • O tempo de inatividade planejado necessário para manutenção de rotina de hardware e software
  • Tempo de inatividade no banco de dados e nível de aplicação

A sua escolha por alta disponibilidade depende de muitos fatores, incluindo o quão crítico as aplicações são para o negócio, se os clientes são impactados, com que freqüência as aplicações são executadas, quantos usuários são afetados, com que rapidez uma base de dados ou aplicação deve falhar para o sistema redundante, e quanta perda de dados é tolerável.

Métricas de Alta Disponibilidade: RTO e RPO

As duas métricas normalmente usadas para avaliar HA (e Disaster Recovery (DR) também) são o Objectivo de Tempo de Recuperação (RTO) e o Objectivo do Ponto de Recuperação (RPO).

  • RTO é a duração máxima tolerável de qualquer falha. As aplicações de processamento de transações online geralmente têm as RTOs mais baixas, e aquelas que são de missão crítica geralmente têm uma RTO de apenas alguns segundos.
  • RPO é a quantidade máxima de perda de dados que pode ser tolerada quando uma falha acontece. Para HA, a RPO é frequentemente zero para especificar que deve haver zero perda de dados em todos os cenários de falha.

No entanto, há uma diferença entre o que RTOs e RPOs você pode conseguir para suportar alta disponibilidade versus recuperação de desastres. Com HA, a replicação de dados pode ser síncrona porque os seus componentes redundantes estão no seu ambiente LAN. Bases de dados ativas e em standby podem ser atualizadas simultaneamente, permitindo recuperações completas, automáticas e em tempo real que podem satisfazer os RTOs e RPOs mais exigentes. Como resultado, sua instância standby está “quente” e em sincronia com sua instância ativa, portanto está pronta para assumir imediatamente no caso de uma falha.

Entretanto, para recuperar sistemas, software e dados no caso de um desastre, é necessário que os componentes redundantes estejam em uma rede de área ampla (WAN). Isto é importante porque você deve manter os componentes redundantes em uma localização geográfica longe da instância ativa. Mas com uma WAN, a replicação de dados é assíncrona para evitar o impacto negativo sobre o desempenho da produção. Isto significa que as atualizações para as instâncias em espera atrasarão as atualizações feitas para a instância ativa, resultando em um atraso durante o processo de recuperação. Como os desastres são raros, algum atraso pode ser tolerável e depende (a) de quão crítico é para o seu negócio alcançar a menor RTO e RPO possível e (b) de quanto orçamento você pode alocar para alcançar a melhor RTO e RPO.

Como o SIOS ajuda você a alcançar alta disponibilidade

SIOS oferece uma única solução para atender às necessidades de alta disponibilidade e recuperação de desastres em uma grande variedade de sistemas operacionais, ambientes de infraestrutura e aplicativos, incluindo SAP, SQL Server, Oracle e outros ambientes executados em configurações de armazenamento compartilhado baseadas em SAN ou configurações de armazenamento de dados locais SANless.

  • Ambiente Windows: Quando adicionado a um ambiente Windows Server Failover Cluster (WSFC), o SIOS DataKeeper permite criar um cluster SANless, onde os clusters de armazenamento compartilhado são impossíveis ou impraticáveis, ou adicionar replicação para proteção contra desastres em seus clusters Windows baseados em SAN. A replicação rápida e eficiente baseada em host sincroniza o armazenamento local em nós de cluster locais e remotos, criando um cluster SANLess em qualquer combinação de ambientes físicos, virtuais ou em nuvem.
  • Ambientes Linux: O SIOS Protection Suite for Linux é uma solução de software de clustering em pacotes que utiliza o SIOS LifeKeeper e o SIOS DataKeeper para fornecer uma combinação totalmente integrada de clustering de alta disponibilidade, monitoramento contínuo de aplicativos, replicação de dados e políticas de recuperação configuráveis para proteger seus aplicativos e dados críticos para o negócio contra tempo de inatividade e desastres. O SIOS Protection Suite permite-lhe criar clusters SAN ou SANLess utilizando uma vasta gama de dispositivos de armazenamento, incluindo armazenamento directamente ligado, iSCSI e Fibre Channel. O SIOS Protection Suite for Linux suporta todas as principais distribuições Linux, incluindo Red Hat Enterprise Linux, SUSE Linux Enterprise Server, CentOS e Oracle Linux.

Com soluções SIOS, o RPO é sempre zero e o RTO depende da aplicação, mas normalmente de 30 segundos a alguns minutos para algumas aplicações. Vamos discutir o estudo de caso de um cliente “SIOS em ação” na maior empresa de varejo da Suíça.

Migros Atinge a Continuidade Crítica do seu sistema POS com soluções SIOS de alta disponibilidade

Migros é a maior empresa de varejo da Suíça, sua maior rede de supermercados e o maior empregador com mais de 100.000 funcionários. É também um dos quarenta maiores varejistas do mundo. Em parceria com a Realstuff Informatik AG, fornecedora de serviços de TI e revendedora de soluções SIOS com sede na Suíça, a Migros pretendia substituir seu sistema de Ponto de Venda (POS) por uma nova plataforma que fosse mais eficiente para operar e pudesse minimizar a ameaça de paralisações.

O novo sistema de POS fornece informações sobre preços e sortimento de produtos nas 650 lojas Migros e o varejista precisava de uma solução de alta disponibilidade para suportar as vendas do dia-a-dia. Sem um sistema HA, os funcionários não poderiam fixar o preço dos produtos ou pesar as mercadorias se houvesse uma falha no sistema, paralisando as operações. Após avaliar as opções, a Migros decidiu que queria um ambiente de servidor open-source que oferecesse alta disponibilidade e proteção contínua de dados, fosse independente de um ambiente virtual e pudesse ser operado internamente pela equipe de TI da empresa. Para atender a esses requisitos, a equipe escolheu o SIOS Protection Suite para Linux para replicação para proteger os dados do POS.

Para o projeto do sistema, treinamento do cliente e suporte ao idioma nativo, a Realstuff fez parceria com o Centro de Competência e Suporte SIOS para a Europa Central e Oriental, sediado em Dresden, Alemanha e operado pela Computer Concept. Foi importante para a Migros obter suporte 24x7x365 durante o tempo do escritório regional do Centro de Competência e Suporte.

Realstuff implementou a solução de alta disponibilidade do SIOS Protection Suite para monitorar constantemente os servidores POS e replicar dados. Em cada localização de loja, são utilizados dois servidores para garantir a protecção contínua dos dados. Se um servidor falhar, a segunda instância assume o trabalho instantaneamente. Além disso, ambos os servidores espelham os ativos de dados no sistema de monitoramento. Leia o estudo de caso completo da Migros aqui.

Pensamentos Finais

O Centro Regional de Competência e Suporte consultou a Realstuff para fornecer informações e orientação sobre a implementação e lançamento e conduziu um workshop de treinamento de três dias para treinar a equipe Migros. Richard Huber, gerente e membro do conselho executivo da Realstuff, comentou após a implantação que os benefícios da solução de alta disponibilidade SIOS foram sua flexibilidade, confiabilidade, facilidade de uso e garantia de que os dados são mantidos em sincronia o tempo todo.

Today, Migros cumpriu seus requisitos para HA com solução SIOS fácil de usar, que fornece monitoramento contínuo de servidores, armazenamento, aplicações, bancos de dados e conexões de rede para detectar pontos de falha, reduzir o tempo de inatividade, manter a conectividade do cliente, e fornecer acesso ininterrupto aos dados.

Para mais informações sobre soluções SIOS e como o SIOS pode ajudá-lo a alcançar HA em um ambiente SQL Server, você pode ler “Why Clustering for SQL Server High Availability” aqui.

Ver posts recentes no blog sobre disponibilidade.

Deixe uma resposta

O seu endereço de email não será publicado.