Qu'est-ce qu'un plan de reprise après incident ?

Élaborez un plan de reprise après incident qui renforce votre cyber-résilience et votre capacité de reprise.

Comment fonctionne un plan de reprise après incident ?

Un plan de reprise après incident est un document officiel créé par une organisation qui contient des instructions détaillées sur la manière de réagir à des incidents imprévus tels que des catastrophes naturelles, des pannes de courant, des cyberattaques et tout autre événement perturbateur. Le plan contient des stratégies visant à minimiser les effets d'une catastrophe, afin que l'organisation puisse continuer à fonctionner ou reprendre rapidement ses principales activités.

Les interruptions peuvent entraîner des pertes de revenus, porter atteinte à l'image de marque et provoquer le mécontentement des clients. Plus le temps de reprise est long, plus l'impact métier négatif sera important. Par conséquent, un bon plan de reprise après incident doit permettre une reprise rapide suite aux interruptions, quelle qu'en soit l'origine.

Assurez la continuité des activités en effectuant une reprise après incident dans le cloud quelques minutes après une panne grâce à notre solution de reprise après incident as a service.

Découvrir la reprise après sinistre en tant que service

Un plan de reprise après sinistre est plus ciblé qu'un plan de continuité des activités et ne couvre pas nécessairement toutes les éventualités concernant les processus, les actifs, les ressources humaines et les partenaires commerciaux.

En règle générale, une solution de reprise après incident efficace traite tous les types d'interruption des opérations et pas seulement des catastrophes naturelles majeures ou d'origine humaine qui mettent un site hors service. Ces interruptions peuvent être des pannes de courant, des pannes téléphoniques, une perte temporaire d'accès à une installation en raison de menaces d'attaque à la bombe, un "incendie potentiel" ou un incendie non destructif, une inondation ou un autre événement à faible impact. Un plan de reprise après incident doit être organisé selon le type de catastrophe et d'emplacement. Il doit comporter des scripts (instructions) qui peuvent être mis en œuvre par n'importe quelle personne.

Avant les années 1970, la seule précaution des entreprises consistait à effectuer des copies de leurs dossiers papier. La planification de la reprise après incident a pris de l'importance au cours des années 1970, lorsque les entreprises ont commencé à dépendre beaucoup plus de l'informatique. À cette époque, la plupart des systèmes étaient de grands systèmes (mainframes) traitant des tâches par lots. Un autre grand système hors site pouvait être chargé à partir de bandes de sauvegarde, en attendant la reprise du site principal.

En 1983, le gouvernement américain a demandé aux banques nationales de disposer d'un plan de sauvegarde vérifiable. De nombreuses autres secteurs ont suivi cet exemple, conscients des pertes financières importantes qu'entraînaient les pannes de longue durée.

Dans les années 2000, les entreprises sont devenues de plus en plus tributaires des services numériques en ligne. Avec l'arrivée des mégadonnées, du cloud, du mobile et des médias sociaux, les entreprises ont dû faire face à la collecte et au stockage de quantités colossales de données à un rythme exponentiel. Les plans de reprise après incident ont dû se complexifier pour tenir compte de quantités beaucoup plus importantes de données à stocker provenant de multiples appareils. L'avènement de l'informatique dématérialisée dans les années 2010 a contribué à atténuer cette complexité de la reprise après incident en permettant aux organisations d'externaliser leurs plans et solutions de reprise après incident, également connues sous le nom de reprise après incident as a service.

Une autre tendance actuelle qui confirme l'importance d'un plan détaillé de reprise après incident est la sophistication croissante des cyberattaques. Les statistiques sectorielles montrent que de nombreuses attaques restent inaperçues pendant plus de 200 jours. Avec un délai aussi long pour se dissimuler dans un réseau, les attaquants peuvent implanter des logiciels malveillants qui finissent par s'infiltrer dans les copies de sauvegarde, infectant même les données de récupération. Les attaques peuvent rester inactives pendant des semaines ou des mois, permettant aux logiciels malveillants de se propager dans tout le système. Même après la détection d'une attaque, il peut être extrêmement difficile de supprimer des logiciels malveillants qui sont devenus omniprésents dans toute l'entreprise.

L'interruption des activités en raison d'une cyberattaque peut avoir un effet dévastateur sur une entreprise. Par exemple, une cyber-panne dans une entreprise de livraison de colis peut perturber les opérations dans toute la chaîne d'approvisionnement, avec pour conséquence des pertes financières et une atteinte à la réputation. Et dans le monde d'aujourd'hui, qui dépend du numérique, chaque seconde de cette perturbation compte.

Pourquoi un plan de reprise après incident est-il important ?

Le besoin absolu d'améliorer l'expérience client et les résultats commerciaux encourage la tendance croissante des entreprises à adopter le multicloud hybride. Toutefois, le multicloud hybride crée une complexité d'infrastructure et des risques potentiels dont la gestion nécessite des compétences et des outils spécialisés. En raison de cette complexité, les entreprises subissent des indisponibilités et des pannes système fréquentes, associées à des cyberattaques, à une pénurie de compétences et à une défaillance des fournisseurs. L'impact métier des pannes ou du temps d'indisponibilité non planifiés est extrêmement élevé, plus particulièrement dans un environnement multicloud hybride. La résilience dans le multicloud hybride nécessite un plan de reprise après incident faisant appel à des compétences spécialisées, à une stratégie intégrée et à des technologies avancées, notamment à l'orchestration pour la protection et la récupération des données. Les entreprises doivent mettre en place une résilience complète, associée à une technologie d'orchestration qui les aide à atténuer les risques de continuité des opérations dans le multicloud hybride et leur permette ainsi d'atteindre leurs objectifs de transformation numérique.

Les autres raisons majeures pour lesquelles une entreprise a besoin d'un plan de reprise après incident détaillé et dûment testé sont les suivantes :

Réduire les interruptions des opérations normales.
Limiter la portée des interruptions et des dommages.
Atténuer l'impact économique de l'interruption.
Établir à l'avance d'autres moyens garantissant la continuité de l'exploitation.
Former le personnel aux procédures d'urgence.
Assurer une restauration du service qui soit rapide et sans heurts.

Pour répondre aux attentes actuelles en matière de continuité des opérations, les entreprises doivent pouvoir restaurer les systèmes critiques en quelques minutes, voire quelques secondes après une interruption.

Comment les organisations utilisent-elles un plan de reprise après incident ?

De nombreuses entreprises ont du mal à faire évoluer leurs stratégies de reprise après sinistre suffisamment rapidement pour prendre en charge les environnements informatiques hybrides et les opérations commerciales complexes d'aujourd'hui. Dans un monde où tout fonctionne 24 heures sur 24 et 7 jours sur 7, une entreprise peut gagner un avantage concurrentiel - ou perdre des parts de marché - en fonction de la rapidité avec laquelle elle peut se remettre d'un incident et rétablir ses services de base.

Certaines organisations font appel à des services externes de conseil en matière de reprise après incident et de continuité des activités pour répondre à leurs besoins d'évaluation, de planification et de conception, de mise en œuvre, de vérification et de gestion complète du programme de résilience.

Il existe des services proactifs, tels que les services de reprise des infrastructures informatiques de Kyndryl, permettant aux entreprises de remédier aux perturbations grâce à des solutions de reprise informatique flexibles et rentables.

Face à la prolifération des cyberattaques, les entreprises abandonnent progressivement l'approche de la reprise traditionnelle ou manuelle pour passer à une approche de résilience définie par logiciel. L'approche des services de cyber-résilience de Kyndryl utilise des technologies avancées et les meilleures pratiques pour évaluer les risques, établir des priorités et protéger les applications et les données essentielles à l'entreprise. Ces solutions de reprise après incident peuvent aider les entreprises à récupérer rapidement leur infrastructure informatique pendant et après une cyberattaque.

D'autres entreprises se tournent vers des services de sauvegarde basés sur le cloud, tels que Reprise sur une plateforme hybride de Kyndryl afin d'avoir une réplication continue des applications, infrastructures, données et systèmes critiques pour une récupération rapide après une panne informatique. Il existe également des options de serveurs virtuels, telles que Kyndryl Cloud Virtualized Server Recovery pour protéger les serveurs critiques en temps réel. Cette solution permet une récupération rapide des applications dans un centre de résilience Kyndryl afin de maintenir les entreprises opérationnelles pendant les périodes de maintenance ou d'interruption inattendue.

Pour un nombre croissant d'organisations, la solution réside dans l'orchestration de la résilience, une approche basée sur le cloud qui utilise l'automatisation de la reprise après incident et une suite d'outils de gestion de la continuité conçus spécifiquement pour les environnements informatiques hybrides. Par exemple, l'orchestration de la résilience de Kyndryl permet de protéger les dépendances des processus opérationnels entre les applications, les données et les composants d'infrastructure. Elle augmente la disponibilité des applications de gestion afin que les entreprises puissent accéder à des renseignements de haut niveau ou approfondis concernant l'objectif de point de reprise, l'objectif de temps de reprise et la santé globale de la continuité informatique à partir d'un tableau de bord centralisé.

Dans le monde actuel où tout est connecté, votre entreprise ne peut pas se permettre des temps d'arrêt, qui peuvent entraîner une perte de revenus, une atteinte à la réputation et des sanctions réglementaires. Découvrez comment Kyndryl Cloud Resiliency Orchestration peut vous aider à transformer votre gestion de la reprise informatique par l'automatisation afin de simplifier le processus de reprise après incident, d'augmenter l'efficacité du flux de travail et de réduire les risques, les coûts et le temps de vérification du système.

Comment un plan de reprise après incident est-il utilisé dans l'industrie ?

Hyundai Heavy Industries a été confrontée à cette dure réalité lorsqu'un séisme de magnitude 5,8 a frappé en 2016. Comme son centre de données était situé près du siège de l'entreprise, à Ulsan City (Corée), le tremblement de terre a servi de sonnette d'alarme et Hyundai a décidé de contrôler ses systèmes de reprise après incident et d'évaluer son niveau de préparation à toute une série de perturbations potentielles.

En 2016, un tremblement de terre a montré qu'une catastrophe naturelle pouvait détruire l'infrastructure informatique stratégique de Hyundai. La direction informatique a réagi rapidement, en collaborant avec Kyndryl Business Resiliency Services pour implémenter une solution robuste de reprise après incident associée à un centre de données distant.

Quelles sont les étapes clés d'un plan de reprise après incident ?

L'objectif d'un plan de reprise après incident (DR) est de faire en sorte qu'une organisation puisse répondre à une catastrophe ou à une autre urgence affectant ses systèmes d'information et minimiser l'impact sur les opérations commerciales.Kyndryl a créé un modèle permettant de créer un plan de reprise après incident Les étapes suggérées dans ce modèle de reprise après incident sont les suivantes : Une fois que vous avez préparé les informations, il est recommandé de conserver le document dans un endroit sûr et accessible hors du site.

Étape 1 - Principaux objectifs : la première étape consiste à définir de manière générale les principaux objectifs d'un plan de reprise après incident.

Étape 2 - Personnel : notez votre personnel chargé du traitement des données. Joignez une copie de l'organigramme à votre plan.

Étape 3 - Profil des applications : répertoriez les applications et précisez si elles sont critiques et si elles constituent un actif fixe.

Étape 4 - Profil de l'inventaire : indiquez le fabricant, le modèle, le numéro de série, le coût et précisez si chaque article vous appartient ou est loué.

Étape 5 - Procédures de sauvegarde des services d'information : ajoutez des informations telles que : « Les destinataires des journaux sont modifiés à ________ et à ________. » Et : « Les objets modifiés dans les bibliothèques et répertoires suivants sont enregistrés à ____. »

Étape 6 - Procédures de reprise après incident : pour tout plan de reprise après incident, ces trois éléments doivent être pris en compte :

Procédures d'intervention d'urgence documentant la réaction d'urgence appropriée en cas d'incendie, de catastrophe naturelle ou de toute autre activité afin de protéger des vies et de limiter les dommages.
Procédures d'opérations de sauvegarde garantissant que les tâches opérationnelles de traitement des données essentielles peuvent avoir lieu après l'interruption.
Procédures d'actions de reprise permettant la restauration rapide d'un système de traitement de données après un incident.

Étape 7 - plan de reprise après sinistre pour le site mobile : le plan doit comprendre un plan d'installation du site mobile, un plan de communication en cas d'incident (y compris des schémas de câblage) et un schéma de maintenance électrique.

Étape 8 - Plan de reprise pour un site de secours : un autre plan de site de secours doit prévoir un site (de secours) alternatif. Le site alternatif dispose d'un système de sauvegarde temporaire pendant que le site d'origine est en cours de rétablissement.

Étape 9 - Restauration de l'intégralité du système : pour remettre votre système dans l'état où il était avant l'incident, utilisez les procédures de récupération après une perte complète du système dans Gestion des systèmes : Sauvegarde et récupération.

Étape 10 - Processus de reconstruction : l'équipe de gestion doit évaluer les dommages et commencer la reconstruction d'un nouveau centre de données.

Étape 11 - Tester le plan de reprise après sinistre et de cyber-reprise : pour une planification d'urgence réussie, il est important de tester et d'évaluer régulièrement le plan de reprise après incident. Les opérations de traitement des données sont de nature volatile, ce qui entraîne des modifications fréquentes des équipements, des programmes et de la documentation. Il est donc essentiel de considérer le plan comme un document en constante évolution.

Étape 12 - Reconstruction du site sinistré : cette étape doit comprendre un plan du centre de données, les besoins actuels en matériel et les alternatives possibles, ainsi que la superficie du centre de données, les besoins en énergie et les exigences en matière de sécurité.

Étape 13 - Enregistrement des modifications apportées au plan : maintenez votre plan de reprise après incident à jour. Conservez des traces de toute modification apportée à votre configuration, à vos applications et à vos programmes et procédures de sauvegarde.