Reprise après sinistre et poursuite des opérations
Pannes de courant. Vols. Serveurs et unités de disque dur compromis. Cyberattaques et ransomware. Tornades, tremblements de terre et ouragans. Il existe de nombreux types de catastrophe qui peuvent faire des ravages dans votre entreprise si vous n'y êtes pas préparé. Parce que ces catastrophes sont souvent inévitables, il est essentiel de disposer d'une infrastructure informatique solide et d'établir des délais et des objectifs de reprise réguliers pour renforcer votre reprise. Votre équipe informatique peut effectuer la reprise en ligne d'une application et répliquer vos données de façon à ce que la perte soit quasiment nulle, mais pour ce faire, elle a besoin de ressources considérables. Elle doit établir un objectif de temps de récupération en fonction de la priorité des applications, du budget et des ressources dont elle dispose.
Qu'est-ce qu'un objectif de point de récupération et en quoi diffère-t-il d'un objectif de temps de récupération ?
Les objectif de temps de récupération (OTR) coïncident avec les objectifs de point de reprise (OPR), une mesure du temps écoulé depuis une défaillance, un incident grave ou un événement similaire causant des pertes. Les OPR calculent l'heure et la date auxquelles vos données étaient utilisables pour la dernière fois. Il s'agit en général de la dernière sauvegarde. Les OPR et les OTR sont des concepts cruciaux pour la continuité des opérations et des métriques nécessaires pour déterminer la fréquence des sauvegardes des données de l'entreprise.
Qu'est-ce qu'un objectif de temps de rétablissement ?
Le objectif de temps de reprise (OTR) représente le temps d'indisponibilité d'une application n'entraînant pas de dommages importants pour une entreprise, et le temps nécessaire au système pour réaliser la reprise suite à la perte de disponibilité. Ce processus de reprise inclut les mesures que l'IT doit prendre pour restaurer l'application et ses données à leur état antérieur à l'incident. Dans le cas d'applications à haute priorité, un OTR peut être exprimé en secondes, à condition que la fonction IT ait investi dans des services de reprise. Les OTR nécessitent que votre service IT ait préalablement trié les applications en fonction de leur priorité et du risque de perte d'activité métier. L'équipe IT affecte alors à ces applications les ressources appropriées en temps, budget et infrastructure informatique.
Déterminer un objectif de délai de rétablissement
Les OTR sont utilisés pour mesurer le temps nécessaire au service IT pour récupérer les données après l'incident. Pour leur base d'évaluation, les OTR représentent les besoins globaux de votre entreprise et déterminent combien de temps votre entreprise peut survivre sans infrastructure et services informatiques. Votre équipe informatique doit d'abord aligner les OTR sur ce qui est faisable. Les administrateurs informatiques doivent bien comprendre les différents types de vitesse de restauration pour calculer un OTR répondant aux besoins de l'entreprise. Par exemple, un OTR d'une heure ne peut pas être respecté, si le temps de restauration minimum possible est de deux heures.
Comme ce processus implique la restauration de toutes les opérations informatiques, les OTR sont souvent compliqués. Votre équipe IT peut rationaliser une partie du processus de reprise en l'automatisant autant que possible. Le OTR peut avoir des coûts plus élevés que ceux d'un objectif de point de reprise (OPR) spécifique. Un OTR exigeant implique l'ensemble de votre infrastructure et pas seulement les données. Le coût pour réaliser le OTR ou le OPR est lié à la priorisation des applications et des données réalisée par votre équipe IT. L'équipe IT définit les priorités des applications et des données en fonction de leurs revenus et de leurs risques. Si les données d'une application sont soumises à une réglementation, la perte de données peut entraîner de lourdes sanctions, quelle que soit la fréquence d'utilisation de l'application.
Atteindre un objectif de temps de récupération ou de point de récupération proche de zéro
Bien que les OTR et les OPR varient selon la priorité de l'application et des données, il est incroyablement coûteux pour une entreprise de fournir un OTR ou OPR proche de zéro pour toutes ses applications. Un temps de disponibilité de 100 % pour un OTR et une perte nulle de données pour un OPR ne peuvent être atteints qu'en investissant dans la réplication continue des données et dans des environnements virtuels.
Exemple d'objectif de délai de rétablissement
La récupération d'éléments granulaires est un exemple de OTR. Dans cet exemple, un utilisateur d'une entreprise très active supprime un courrier électronique important et vide le dossier de la corbeille. Cette entreprise utilise Microsoft Exchange comme application stratégique et son service informatique sauvegarde perpétuellement les changements de niveau delta dans Exchange à l'aide d'une application de sauvegarde permettant d'obtenir une sauvegarde et une récupération granulaires. Cette fonctionnalité permet au service informatique de récupérer rapidement ce courrier électronique important, en cinq minutes environ, au lieu de devoir restaurer une machine virtuelle complète pour un seul e-mail.
Orchestration de la résilience et reprise après sinistre
Une stratégie de reprise après incident se heurte à de nombreux défis, en particulier en cas de reprise après incident dans un environnement informatique hybride. Ces défis sont notamment les suivants, mais la liste n'est pas exhaustive :
- Charges de travail déployées sur différents environnements
- Interdépendances entre l'infrastructure IT et les applications
- Rapprochement de tous les appareils, composants et applications du OPR et restauration complète des opérations de l'entreprise
- La restauration du système peut être retardée si les systèmes et applications sont restaurés dans le mauvais ordre
Que faire pour élaborer et mettre en œuvre une stratégie efficace de reprise après incident malgré tous les obstacles? La récupération de plusieurs applications stratégiques en quelques heures est en général possible si votre équipe IT est compétente, mais elle nécessite une grande quantité de ressources précieuses. La tendance actuelle va vers des OTR et des OPR plus importants et une reprise du système avec une restauration rapide des nombreuses applications critiques. Il est désormais possible d'atténuer l'impact de l'interruption et d'effectuer une reprise en quelques minutes après une panne. L'automatisation est cruciale, car elle permet de mettre à l'échelle les programmes de reprise après incident en automatisant les flux de travaux entre différentes applications de manière rapide et fiable, lors de la transition vers des environnements hybrides.
La technologie actuelle d'orchestration de la résilience vous aide à mettre en œuvre votre stratégie de reprise après incident et à réduire les exigences en termes de temps d'indisponibilité de la production et d'exposition métier suite à des pannes. En termes de préparation, l'orchestration de la résilience aide les entreprises à réaliser des tests de reprise après incident avec des effectifs moindres. L'orchestration de la résilience aide également ces entreprises à réduire la préparation et la validation des exercices de reprise après incident. L'un des principaux avantages de la technologie d'orchestration de la résilience est sa capacité à fonctionner dans des environnements physiques, virtuels et cloud tout en continuant à surveiller les applications. À l'heure où le libre-service et les accords de niveau de service modérés font de plus en plus partie des attentes des utilisateurs finaux des services cloud, les stratégies de résilience basées sur l'orchestration jouent un rôle de plus en plus crucial pour les entreprises modernes qui envisagent de passer à des environnements cloud.