Co to jest wysoka dostępność?

Wysoka dostępność (HA) jest komponentem systemu technologicznego, który eliminuje pojedyncze punkty awarii w celu zapewnienia ciągłości operacji lub czasu pracy przez dłuższy okres czasu.

Wszystkie organizacje używają różnych baz danych i aplikacji o znaczeniu krytycznym dla biznesu, takich jak hurtownie danych, aplikacje e-commerce, systemy zarządzania relacjami z klientami (CRM), systemy finansowe, zarządzanie łańcuchem dostaw i systemy business intelligence. Gdy system, baza danych lub aplikacja ulegnie awarii, organizacje te wymagają ochrony wysokiej dostępności, aby utrzymać systemy w gotowości do pracy i zminimalizować ryzyko utraty przychodów, bezproduktywnych pracowników i niezadowolonych klientów.

Systemy wysokiej dostępności obejmują pięć zasad projektowania:

  • Automatycznie przełączają się na system nadmiarowy, aby podjąć działanie, gdy aktywny komponent ulegnie awarii. Eliminuje to pojedyncze punkty awarii.
  • Mogą automatycznie wykrywać awarie na poziomie aplikacji, niezależnie od ich przyczyn.
  • Zapewniają brak utraty danych podczas awarii systemu.
  • Automatycznie i szybko przełączają się na nadmiarowe komponenty, aby zminimalizować czas przestoju.
  • Zapewniają możliwość ręcznego przełączania i przywracania w celu zminimalizowania przestojów podczas planowanej konserwacji.

TechTarget definiuje HA jako „system lub komponent, który działa nieprzerwanie przez pożądanie długi okres czasu. Dostępność może być mierzona w odniesieniu do „100% operacyjności” lub „nigdy nie zawiedzie”. Powszechnie uznawany, ale trudny do osiągnięcia standard dostępności dla systemu lub produktu jest znany jako dostępność 'pięciu dziewiątek’ (99,999%).”

Zdefiniujmy jednak High Availability w prostych słowach:

High Availability zapewnia, że Twoje systemy, bazy danych i aplikacje działają wtedy i w razie potrzeby.

„Kiedy” bierze pod uwagę procent czasu, w którym aplikacja musi być uruchomiona. Z kolei „w razie potrzeby” uwzględnia prawidłowe działanie systemu, bazy danych i/lub aplikacji bez utraty danych.

W zależności od systemu i/lub aplikacji, wysoka dostępność będzie się różnić. Na przykład, w przypadku aplikacji o znaczeniu krytycznym, takich jak systemy handlu elektronicznego, dostępność czterech dziewiątek (99,99%) jest uważana za standard branżowy. Przy dostępności 99,99% można oczekiwać nie więcej niż 52,60 minut przestoju w ciągu roku lub 8,64 sekund przestoju dziennie. Jednak w przypadku aplikacji i systemów o znaczeniu niekrytycznym, takich jak awaria jednego komputera, wysoka dostępność może wynosić dwie cyfry 9 (99%), co odpowiada 8,77 godzinom przestoju rocznie lub 1,44 minuty przestoju dziennie. Podczas pomiaru dopuszczalnego czasu przestoju należy uwzględnić:

  • Nieplanowany czas przestoju (np, awarie sprzętu lub oprogramowania)
  • Planowany czas przestoju potrzebny do rutynowej konserwacji sprzętu i oprogramowania
  • Czas sprawności na poziomie bazy danych i aplikacji

Wybór wysokiej dostępności zależy od wielu czynników, w tym od tego, jak krytyczne są aplikacje dla firmy, czy mają one wpływ na klientów, jak często aplikacje są uruchamiane, ilu użytkowników jest dotkniętych awarią, jak szybko baza danych lub aplikacja musi przejść do systemu nadmiarowego i jak duża utrata danych jest tolerowana.

Mierniki wysokiej dostępności: RTO i RPO

Dwie metryki zwykle używane do oceny HA (a także Disaster Recovery (DR)) to Recovery Time Objective (RTO) i Recovery Point Objective (RPO).

  • RTO to maksymalny tolerowany czas trwania przestoju. Aplikacje przetwarzające transakcje online mają zwykle najniższe RTO, a te, które są krytyczne dla misji, często mają RTO wynoszące tylko kilka sekund.
  • RPO to maksymalna ilość utraty danych, którą można tolerować, gdy nastąpi awaria. W przypadku HA RPO często wynosi zero, aby określić, że nie powinno być żadnej utraty danych we wszystkich scenariuszach awarii.

Jednakże istnieje różnica między tym, jakie RTO i RPO można osiągnąć, aby wspierać wysoką dostępność w porównaniu z odzyskiwaniem po awarii. W przypadku HA, replikacja danych może być synchroniczna, ponieważ nadmiarowe komponenty znajdują się w środowisku LAN. Aktywne i rezerwowe bazy danych mogą być równolegle aktualizowane, umożliwiając pełne, automatyczne odzyskiwanie danych w czasie rzeczywistym, które może spełnić najbardziej wymagające RTO i RPO. W rezultacie instancja standby jest „gorąca” i zsynchronizowana z instancją aktywną, dzięki czemu jest gotowa do natychmiastowego przejęcia zadań w przypadku awarii.

Odzyskiwanie systemów, oprogramowania i danych w przypadku katastrofy wymaga jednak, aby redundantne komponenty znajdowały się w sieci rozległej (WAN). Jest to ważne, ponieważ musisz utrzymywać nadmiarowe komponenty w lokalizacji geograficznej z dala od aktywnej instancji. Jednak w przypadku sieci WAN replikacja danych jest asynchroniczna, aby uniknąć negatywnego wpływu na wydajność przepustowości. Oznacza to, że aktualizacje instancji rezerwowych będą opóźniać aktualizacje instancji aktywnej, co spowoduje opóźnienie w procesie odzyskiwania danych. Ponieważ katastrofy zdarzają się rzadko, pewne opóźnienie może być tolerowane i zależy od (a) tego, jak krytyczne dla Twojej firmy jest osiągnięcie najniższego możliwego RTO i RPO oraz (b) jak duży budżet możesz przeznaczyć na osiągnięcie najlepszego RTO i RPO.

Jak SIOS pomaga osiągnąć wysoką dostępność

SIOS oferuje pojedyncze rozwiązanie spełniające zarówno potrzeby wysokiej dostępności, jak i odzyskiwania danych po awarii w szerokiej gamie systemów operacyjnych, środowisk infrastrukturalnych i aplikacji, w tym SAP, SQL Server, Oracle i innych środowisk działających w konfiguracjach opartych na SAN, współdzielonej pamięci masowej lub konfiguracjach bez SAN, lokalnej pamięci masowej.

  • Środowisko Windows: Po dodaniu do środowiska Windows Server Failover Cluster (WSFC), SIOS DataKeeper umożliwia tworzenie klastrów bez sieci SAN, gdzie klastry współdzielonej pamięci masowej są niemożliwe lub niepraktyczne, lub dodanie replikacji dla ochrony przed awariami w klastrach Windows opartych na sieci SAN. Szybka, wydajna replikacja oparta na hoście synchronizuje lokalną pamięć masową na lokalnych i zdalnych węzłach klastra, tworząc klaster bez sieci SAN w dowolnej kombinacji środowisk fizycznych, wirtualnych lub chmurowych.
  • Środowiska Linux: SIOS Protection Suite for Linux jest pakietowym rozwiązaniem programowym dla klastrów, które wykorzystuje SIOS LifeKeeper i SIOS DataKeeper w celu zapewnienia ściśle zintegrowanego połączenia klastrowania awaryjnego o wysokiej dostępności, ciągłego monitorowania aplikacji, replikacji danych i konfigurowalnych polityk odzyskiwania w celu ochrony krytycznych aplikacji biznesowych i danych przed przestojami i katastrofami. SIOS Protection Suite umożliwia budowanie klastrów SAN lub SANLess z wykorzystaniem szerokiej gamy urządzeń pamięci masowej, w tym pamięci masowej dołączanej bezpośrednio, iSCSI i Fibre Channel. SIOS Protection Suite for Linux obsługuje wszystkie główne dystrybucje systemu Linux, w tym Red Hat Enterprise Linux, SUSE Linux Enterprise Server, CentOS i Oracle Linux.

W przypadku rozwiązań SIOS, RPO jest zawsze równe zero, a RTO zależy od aplikacji, ale zazwyczaj wynosi od 30 sekund do kilku minut dla niektórych aplikacji. Omówmy studium przypadku „SIOS w akcji” jednego z klientów w największej szwajcarskiej firmie detalicznej.

Migros Achieves Critical Business Continuity of its POS system with SIOS High Availability Solutions

Migros jest największą firmą detaliczną w Szwajcarii, największą siecią supermarketów i największym pracodawcą zatrudniającym ponad 100 000 pracowników. Jest również jednym z czterdziestu największych sprzedawców detalicznych na świecie. Współpracując z firmą Realstuff Informatik AG, szwajcarskim dostawcą usług IT i sprzedawcą rozwiązań SIOS, Migros poszukiwał możliwości wymiany swojego systemu Point of Sale (POS) na nową platformę, która byłaby bardziej wydajna w obsłudze i mogłaby zminimalizować ryzyko przestojów.

Nowy system POS dostarcza informacji o cenach i asortymencie produktów w 650 sklepach Migros i detalista potrzebował rozwiązania o wysokiej dostępności do obsługi codziennej sprzedaży. Bez systemu HA pracownicy nie mogliby wyceniać produktów ani ważyć towarów, gdyby doszło do awarii systemu, co doprowadziłoby do zatrzymania operacji. Po ocenie opcji, Migros zdecydował, że chce środowiska serwerowego open-source, które oferuje wysoką dostępność i ciągłą ochronę danych, jest niezależne od środowiska wirtualnego i może być wewnętrznie obsługiwane przez personel IT firmy. Aby spełnić te wymagania, zespół wybrał SIOS Protection Suite for Linux do replikacji w celu zabezpieczenia danych POS.

W zakresie projektowania systemu, szkolenia klientów i wsparcia w języku ojczystym Realstuff nawiązał współpracę z SIOS Competence and Support Center for Central and Eastern Europe z siedzibą w Dreźnie, Niemcy, obsługiwanym przez Computer Concept. Dla firmy Migros ważne było uzyskanie wsparcia 24x7x365 w czasie pracy biura regionalnego z Centrum Kompetencji i Wsparcia.

Realstuff wdrożył rozwiązanie wysokiej dostępności SIOS Protection Suite w celu stałego monitorowania serwerów POS i replikacji danych. W każdej lokalizacji sklepu używane są dwa serwery w celu zapewnienia ciągłej ochrony danych. W przypadku awarii jednego z serwerów, druga instancja natychmiast przejmuje pracę. Ponadto oba serwery tworzą lustrzane odbicie danych w systemie monitorującym. Przeczytaj pełne studium przypadku Migros tutaj.

Pomysły końcowe

Regionalne Centrum Kompetencji i Wsparcia skonsultowało się z Realstuff, aby zapewnić wgląd i wskazówki dotyczące wdrożenia i uruchomienia oraz przeprowadziło trzydniowe warsztaty szkoleniowe, aby przeszkolić zespół Migros. Richard Huber, menedżer i członek zarządu w Realstuff, skomentował po wdrożeniu, że zaletami rozwiązania wysokiej dostępności SIOS są jego elastyczność, niezawodność, łatwość użytkowania i pewność, że dane są zawsze zsynchronizowane.

Dzisiaj firma Migros spełniła swoje wymagania w zakresie HA dzięki łatwemu w użyciu rozwiązaniu SIOS, które zapewnia ciągłe monitorowanie serwerów, pamięci masowej, aplikacji, baz danych i połączeń sieciowych w celu wykrycia punktów awarii, redukcji przestojów, utrzymania łączności z klientami i zapewnienia nieprzerwanego dostępu do danych.

Więcej informacji na temat rozwiązań SIOS i sposobu, w jaki SIOS może pomóc w osiągnięciu HA w środowisku SQL Server, można przeczytać tutaj „Why Clustering for SQL Server High Availability”.

Zobacz ostatnie wpisy na blogu dotyczące dostępności.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.