¿Qué es la alta disponibilidad?

La alta disponibilidad (HA) es un componente de un sistema tecnológico que elimina los puntos únicos de fallo para garantizar la continuidad de las operaciones o el tiempo de actividad durante un período prolongado.

Todas las organizaciones utilizan una variedad de bases de datos y aplicaciones críticas para el negocio, como almacenes de datos, aplicaciones de comercio electrónico, sistemas de gestión de relaciones con los clientes (CRM), sistemas financieros, gestión de la cadena de suministro y sistemas de inteligencia empresarial. Cuando falla un sistema, una base de datos o una aplicación, estas organizaciones necesitan una protección de alta disponibilidad para mantener los sistemas en funcionamiento y minimizar el riesgo de pérdida de ingresos, empleados improductivos y clientes insatisfechos.

Los sistemas de alta disponibilidad incorporan cinco principios de diseño:

  • Se conmutan automáticamente a un sistema redundante para retomar una operación cuando falla un componente activo. Esto elimina los puntos únicos de fallo.
  • Pueden detectar automáticamente los fallos a nivel de aplicación a medida que se producen, independientemente de las causas.
  • Aseguran la ausencia de pérdida de datos durante un fallo del sistema.
  • Automáticamente y con rapidez conmutan a componentes redundantes para minimizar el tiempo de inactividad.
  • Proporcionan la capacidad de conmutación por error y recuperación manual para minimizar el tiempo de inactividad durante el mantenimiento planificado.

TechTarget define la HA como «un sistema o componente que está continuamente operativo durante un período de tiempo deseablemente largo. La disponibilidad puede medirse en relación con el «100% de funcionamiento» o con «no fallar nunca». Un estándar de disponibilidad muy extendido, pero difícil de alcanzar, para un sistema o producto se conoce como «disponibilidad de cinco nueves» (99,999%)».

Pero definamos la Alta Disponibilidad en términos sencillos:

La Alta Disponibilidad garantiza que sus sistemas, bases de datos y aplicaciones funcionen cuando y según sea necesario.

El «cuando» tiene en cuenta el porcentaje de tiempo que la aplicación debe estar en funcionamiento. El «según sea necesario» tiene en cuenta el correcto funcionamiento del sistema, la base de datos y/o las aplicaciones sin pérdida de datos.

Dependiendo del sistema y/o la aplicación, la alta disponibilidad será diferente. Por ejemplo, con aplicaciones de misión crítica, como sus sistemas de comercio electrónico, la disponibilidad de cuatro nueves (99,99%) se considera un estándar de la industria. Con una disponibilidad del 99,99%, no puede esperar más de 52,60 minutos de inactividad al año u 8,64 segundos de inactividad al día. Sin embargo, para aplicaciones y sistemas no críticos, como el fallo de un solo escritorio, la alta disponibilidad puede ser de dos 9 (99%), lo que equivale a 8,77 horas de tiempo de inactividad al año o 1,44 minutos de tiempo de inactividad al día. Al medir el tiempo de inactividad aceptable, es importante tener en cuenta:

  • Tiempo de inactividad no planificado (por ejemplo, fallos de hardware o software)
  • El tiempo de inactividad planificado necesario para el mantenimiento rutinario de hardware y software
  • El tiempo de inactividad a nivel de la base de datos y de la aplicación

Su elección para la alta disponibilidad depende de muchos factores, incluyendo lo críticas que son las aplicaciones para el negocio, si los clientes se ven afectados, la frecuencia con la que se ejecutan las aplicaciones, cuántos usuarios se ven afectados, la rapidez con la que una base de datos o una aplicación debe conmutar por error al sistema redundante y cuánta pérdida de datos es tolerable.

Métricas de alta disponibilidad: RTO y RPO

Las dos métricas que se utilizan normalmente para evaluar la HA (y también la recuperación de desastres (DR)) son el objetivo de tiempo de recuperación (RTO) y el objetivo de punto de recuperación (RPO).

  • RTO es la duración máxima tolerable de cualquier interrupción. Las aplicaciones de procesamiento de transacciones en línea suelen tener los RTO más bajos, y las que son de misión crítica suelen tener un RTO de sólo unos segundos.
  • RPO es la cantidad máxima de pérdida de datos que se puede tolerar cuando se produce un fallo. En el caso de la HA, el RPO suele ser cero para especificar que la pérdida de datos debe ser nula en todos los escenarios de fallo.

Sin embargo, hay una diferencia entre los RTOs y RPOs que se pueden alcanzar para soportar la alta disponibilidad frente a la recuperación de desastres. Con HA, la replicación de datos puede ser sincrónica porque sus componentes redundantes están en su entorno LAN. Las bases de datos activas y en espera pueden actualizarse simultáneamente, lo que permite realizar recuperaciones completas, automáticas y en tiempo real que pueden satisfacer los RTO y RPO más exigentes. Como resultado, su instancia en espera está «caliente» y sincronizada con su instancia activa, por lo que está lista para tomar el relevo inmediatamente en caso de fallo.

Sin embargo, para recuperar los sistemas, el software y los datos en caso de desastre es necesario que los componentes redundantes estén en una red de área amplia (WAN). Esto es importante porque debe mantener los componentes redundantes en una ubicación geográfica alejada de la instancia activa. Pero con una WAN, la replicación de datos es asíncrona para evitar un impacto negativo en el rendimiento. Esto significa que las actualizaciones de las instancias en espera se retrasarán con respecto a las actualizaciones realizadas en la instancia activa, lo que provocará un retraso durante el proceso de recuperación. Dado que las catástrofes son poco frecuentes, puede ser tolerable un cierto retraso y depende de (a) lo crítico que sea para su negocio conseguir el menor RTO y RPO posibles y (b) el presupuesto que pueda asignar para conseguir el mejor RTO y RPO.

Cómo le ayuda SIOS a conseguir una alta disponibilidad

SIOS ofrece una única solución para satisfacer las necesidades de alta disponibilidad y recuperación ante desastres en una amplia variedad de sistemas operativos, entornos de infraestructura y aplicaciones, incluyendo SAP, SQL Server, Oracle y otros entornos que se ejecutan en configuraciones de almacenamiento compartido basadas en SAN o en configuraciones de almacenamiento de datos locales sin SAN.

  • Entorno Windows: Cuando se añade a un entorno de Windows Server Failover Cluster (WSFC), SIOS DataKeeper le permite crear un clúster sin SAN, donde los clústeres de almacenamiento compartido son imposibles o poco prácticos, o añadir la replicación para la protección contra desastres en sus clústeres de Windows basados en SAN. La replicación rápida y eficiente basada en el host sincroniza el almacenamiento local en nodos de clúster locales y remotos, creando un clúster sin SAN en cualquier combinación de entornos físicos, virtuales o en la nube.
  • Entornos Linux: SIOS Protection Suite para Linux es una solución de software de clúster empaquetada que utiliza SIOS LifeKeeper y SIOS DataKeeper para proporcionar una combinación estrechamente integrada de clústeres de conmutación por error de alta disponibilidad, monitorización continua de aplicaciones, replicación de datos y políticas de recuperación configurables para proteger sus aplicaciones y datos críticos para el negocio del tiempo de inactividad y los desastres. SIOS Protection Suite le permite crear clústeres SAN o SANLess utilizando una amplia gama de dispositivos de almacenamiento, incluidos el almacenamiento de conexión directa, iSCSI y Fibre Channel. SIOS Protection Suite para Linux es compatible con las principales distribuciones de Linux, como Red Hat Enterprise Linux, SUSE Linux Enterprise Server, CentOS y Oracle Linux.

Con las soluciones de SIOS, el RPO es siempre cero y el RTO depende de la aplicación, pero suele ser de 30 segundos a unos pocos minutos para algunas aplicaciones. Analicemos el caso práctico «SIOS en acción» de un cliente de la mayor empresa minorista de Suiza.

Migros consigue la continuidad crítica del negocio de su sistema de TPV con las soluciones de alta disponibilidad de SIOS

Migros es la mayor empresa minorista de Suiza, su mayor cadena de supermercados y el mayor empleador con más de 100.000 trabajadores. También es uno de los cuarenta mayores minoristas del mundo. Al asociarse con Realstuff Informatik AG, un proveedor de servicios de TI con sede en Suiza y distribuidor de soluciones SIOS, Migros buscaba sustituir su sistema de punto de venta (TPV) por una nueva plataforma que fuera más eficiente de operar y que pudiera minimizar la amenaza de tiempo de inactividad.

El nuevo sistema de TPV proporciona información sobre precios y surtido de productos en las 650 tiendas de Migros y el minorista necesitaba una solución de alta disponibilidad para apoyar las ventas diarias. Sin un sistema de alta disponibilidad, los empleados no podían poner precio a los productos ni pesar la mercancía si se producía un fallo del sistema, lo que paralizaba las operaciones. Tras evaluar las opciones, Migros decidió que quería un entorno de servidor de código abierto que ofreciera alta disponibilidad y protección de datos continua, que fuera independiente de un entorno virtual y que pudiera ser operado internamente por el personal de TI de la empresa. Para cumplir estos requisitos, el equipo eligió SIOS Protection Suite for Linux para la replicación con el fin de salvaguardar los datos de los puntos de venta.

Para el diseño del sistema, la formación de los clientes y el soporte en el idioma nativo, Realstuff se asoció con el Centro de Competencia y Soporte de SIOS para Europa Central y del Este, con sede en Dresde (Alemania) y operado por Computer Concept. Para Migros era importante obtener soporte 24x7x365 durante el tiempo de la oficina regional del Centro de Competencia y Soporte.

Realstuff implementó la solución de alta disponibilidad SIOS Protection Suite para supervisar constantemente los servidores de los puntos de venta y replicar los datos. En cada tienda se utilizan dos servidores para garantizar la protección continua de los datos. Si un servidor falla, la segunda instancia se hace cargo del trabajo instantáneamente. Además, ambos servidores replican los activos de datos en el sistema de supervisión. Lea el estudio de caso completo de Migros aquí.

Pensamientos finales

El Centro de Competencia y Apoyo regional consultó a Realstuff para que le proporcionara una visión y dirección sobre la implementación y el lanzamiento y realizó un taller de formación de tres días para capacitar al equipo de Migros. Richard Huber, director y miembro de la junta directiva de Realstuff, comentó tras la implantación que las ventajas de la solución de alta disponibilidad SIOS eran su flexibilidad, fiabilidad, facilidad de uso y garantía de que los datos se mantienen sincronizados en todo momento.

Hoy en día, Migros ha cumplido sus requisitos de HA con la solución fácil de usar de SIOS, que proporciona una monitorización continua de los servidores, el almacenamiento, las aplicaciones, las bases de datos y las conexiones de red para detectar puntos de fallo, reducir el tiempo de inactividad, mantener la conectividad de los clientes y proporcionar un acceso ininterrumpido a los datos.

Para obtener más información sobre las soluciones de SIOS y sobre cómo SIOS puede ayudarle a conseguir HA en un entorno de SQL Server, puede leer «Why Clustering for SQL Server High Availability» aquí.

Vea las publicaciones recientes del blog sobre disponibilidad.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.