Raccourcis

La haute disponibilité, qu'est-ce que c'est ?

Copier l'URL

La haute disponibilité est la capacité pour un système informatique à être accessible et fiable presque 100 % du temps, afin de réduire, voire éliminer, les temps d'arrêt. Elle garantit de deux façons qu'un système informatique fonctionne à son plus haut niveau de performances : le service ou serveur donné doit être accessible (ou disponible) à tout moment ou presque, sans interruption, et présenter des performances satisfaisantes sur une période donnée. La haute disponibilité va plus loin qu'un simple contrat de niveau de service (SLA) sur la disponibilité ou que les attentes définies entre un prestataire de services et son client. Elle garantit le bon fonctionnement, la résilience et la fiabilité des systèmes.

 

L'adoption croissante des services en ligne et des charges de travail hybrides entraîne une augmentation de la demande en infrastructures capables de traiter des charges système plus élevées, tout en continuant à assurer le respect des normes d'exploitation. Pour atteindre la haute disponibilité, ces infrastructures (ou systèmes à haute disponibilité) ne peuvent pas se contenter de « mieux fonctionner » : elles doivent générer des résultats définis et quantifiables.

Les solutions ou services de haute disponibilité ont plusieurs objectifs, dont la disponibilité à cinq neufs, c'est-à-dire la garantie que le système fonctionne correctement 99,999 % du temps. En général, seuls les systèmes essentiels (santé, services publics, services financiers) ont besoin d'un tel niveau de disponibilité, à des fins de conformité et de compétitivité. Néanmoins, beaucoup d'entreprises et de secteurs exigent aussi des systèmes disponibles 99,9 %, voire 99,99 % du temps, afin de fournir un accès numérique permanent à leur clientèle ou à leur personnel en télétravail.

Une infrastructure à haute disponibilité doit détecter et éliminer les points de défaillance uniques qui pourraient augmenter les temps d'arrêt système et empêcher les entreprises d'atteindre leurs objectifs de performances. Un point de défaillance unique désigne un aspect de l'infrastructure capable de déconnecter l'ensemble du système en cas de panne. Dans les systèmes complexes, il peut y en avoir plusieurs.

En outre, les entreprises doivent prendre en compte les différents types de défaillances qui menacent les infrastructures informatiques modernes et complexes. Il peut s'agir de pannes du matériel, des logiciels (à la fois au niveau du système d'exploitation et des applications en cours d'exécution) ou des services (comme l'indisponibilité du réseau, les latences et la dégradation des services cloud ou des performances), ou encore de défaillances externes comme une panne de courant.

Pour atteindre la haute disponibilité, chaque entreprise peut commencer par identifier les résultats qu'elle vise, en fonction de ses services principaux, des exigences réglementaires, de conformité ou relatives aux charges de travail, de ses indicateurs de performances, de ses applications critiques et de ses priorités opérationnelles :

 

  • Quelles sont les exigences de disponibilité pour assurer la conformité réglementaire ou la qualité de l'expérience utilisateur ?
  • Quel est le degré de distribution de l'environnement ? Quels sont les principaux points de défaillance ?
  • Quel niveau de performances l'application doit-elle atteindre ? Quels risquent menacent les performances de cette application (p. ex., un trafic utilisateur élevé ou de lourdes charges d'écriture) ?
  • Quel est le type de stockage utilisé ?
  • Quelles sont les exigences en matière de perte de données ou d'accès aux données ?
  • Quels SLA les ressources informatiques actuelles peuvent-elles garantir en cas de panne ? Quels sont les calendriers de maintenance actuellement en place, et quels sont leurs effets sur la disponibilité ?
  • Existe-t-il des protocoles pour la récupération après sinistre ou en cas de changement dans l'exploitation de l'entreprise ?

Dans les environnements à haute disponibilité, de nombreux indicateurs de mesure communs permettent aux équipes informatiques de déterminer si l'architecture à haute disponibilité remplit ses objectifs. Leur pertinence peut varier selon votre architecture, mais il reste utile de tous les évaluer afin de définir les attentes de base en matière de performances :

  • Temps moyen entre les pannes (MTBF) : durée d'exploitation de l'environnement entre deux défaillances d'un système.
  • Temps d'arrêt moyen : durée d'interruption du système (minutes de temps d'arrêt) jusqu'à sa récupération ou son remplacement dans la topologie.
  • Objectif de délai de récupération (RTO) : temps total nécessaire pour terminer une réparation et reconnecter un système.
  • Objectif de point de récupération (RPO) : moment à partir duquel vous avez besoin de récupérer les données. Il s'agit de la fenêtre des données perdues. Par exemple, si un système doit retrouver un autre système à partir de sauvegardes et que celles-ci s'effectuent une fois par jour, vous pourriez perdre l'équivalent de 24 heures de données. En revanche, si le stockage est répliqué ou partagé, cette perte peut se réduire à quelques minutes, voire moins.

Une architecture à haute disponibilité intègre des principes comme la surveillance et l'automatisation en s'inspirant du plan de continuité. L'ensemble du système résiste ainsi à tous les types de défaillances, qu'elles soient localisées ou générales. Le système peut même continuer de fonctionner lors des maintenances programmées et autres interruptions de service.

Les stratégies de récupération après sinistre ou plans de continuité prévoient une approche à chaque défaillance potentielle :

  • Anticipation de pannes précises : dans chaque domaine, les architectes informatiques s'assurent d'abord que les systèmes sont redondants et que des systèmes de sauvegarde peuvent prendre le relais en cas de défaillance. L'étape suivante consiste à automatiser les processus de basculement et de détection des défaillances afin de détecter automatiquement les systèmes en panne et de transférer les services vers le système de sauvegarde.
  • Gestion proactive des performances : la tolérance aux pannes permet de gérer la défaillance, mais pas forcément la dégradation des performances. C'est là qu'interviennent les solutions d'équilibrage de charge et d'évolutivité. Les architectes informatiques surveillent les performances et utilisent plusieurs systèmes pour gérer les demandes des utilisateurs ainsi que l'exploitation. Les outils d'équilibrage de charge et de gestion du trafic redirigent de manière intelligente le trafic en temps réel en fonction de la bande passante, des performances du système, de l'utilisateur ou du type de demande.
  • Traitement des sinistres : malgré leur rareté, les défaillances généralisées de l'infrastructure (panne d'un fournisseur cloud ou catastrophe naturelle sur le site d'un datacenter) demandent une approche plus complète que celles qui portent uniquement sur le matériel ou les logiciels. En plus de reconnecter l'infrastructure, il faut également récupérer des données à jour, ce que vous pouvez faire à l'aide de la réplication (de manière synchronisée, mais avec des risques pour les performances) ou de sauvegardes de données (de manière non synchronisée, mais avec un risque de perte de données).

Les architectures à haute disponibilité exécutent des clusters de basculement actifs, afin d'intégrer la redondance et le basculement, voire d'éliminer complètement les temps d'arrêt.Les nœuds sont surveillés au sein du cluster, à la fois pour la disponibilité et les performances générales des applications, services et réseaux. Grâce au stockage partagé, la panne d'un nœud n'entraîne aucune perte de données, car tous les nœuds d'un cluster utilisent la même source de données. L'équilibrage de charge peut servir à gérer le trafic pour optimiser les performances.

En dehors de ces caractéristiques générales, les clusters à haute disponibilité peuvent être conçus pour des activités plus précises, en fonction des priorités et activités dans l'infrastructure informatique. Par exemple, le module Red Hat Enterprise Linux High Availability Add-on propose quatre configurations par défaut :

  • Haute disponibilité : priorité à la disponibilité
  • Hautes performances : rapidité des opérations simultanées
  • Équilibrage de charge : évolutivité rentable
  • Stockage : résilience de la gestion des données

Dans les environnements concrets, les systèmes à haute disponibilité tiennent généralement compte de toutes ces priorités.

La haute disponibilité couvre l'ensemble de l'infrastructure, car elle est responsable de la gestion des données et du stockage dans des environnements distincts, aussi bien cloud que physiques, ainsi que des services et applications hébergés dans différents endroits. C'est là tout l'intérêt d'une plateforme commune et d'un environnement d'exploitation standard, qui assurent la cohérence, quel que soit l'environnement de déploiement.

La solution Red Hat Enterprise Linux offre d'autres capacités et services que vous pouvez ajouter à l'aide de modules complémentaires. Le module Red Hat Enterprise Linux High Availability Add-On intervient sur le réseau, les clusters et le stockage de la topologie.

Puisque la haute disponibilité et la gestion des données sont étroitement liées, les déploiements Red Hat Enterprise Linux pour Microsoft SQL Server et SAP incluent également le module Red Hat Enterprise Linux High Availability Add-On.