Ir para o conteúdo principal

Disaster recovery plans explained

Develop a disaster recovery plan that boosts your cyber resilience and recovery capability


What is a disaster recovery plan and how does it work?

A disaster recovery plan (DR or DRP) is a formal document created by an organization that contains detailed instructions on how to respond to unplanned incidents such as natural disasters, power outages, cyber attacks and any other disruptive events. The plan contains strategies to minimize the effects of a disaster, so an organization can continue to operate or quickly resume key operations.

Disruptions can lead to lost revenue, brand damage and dissatisfied customers — and the longer the recovery time, the greater the adverse business impact. Therefore, a good disaster recovery plan should enable rapid recovery from disruptions, regardless of the source of the disruption.  

Explore DRaaS

A DR plan is more focused than a business continuity plan and does not necessarily cover all contingencies for business processes, assets, human resources and business partners.

A successful DR solution typically addresses all types of operation disruption and not just the major natural or man-made disasters that make a location unavailable. Disruptions can include power outages, telephone system outages, temporary loss of access to a facility due to bomb threats, a "possible fire" or a low-impact non-destructive fire, flood or other event. A DR plan should be organized by type of disaster and location. It must contain scripts (instructions) that can be implemented by anyone.

Before the 1970s, most organizations only had to concern themselves with making copies of their paper-based records. Disaster recovery planning gained prominence during the 1970s as businesses began to rely more heavily on computer-based operations. At that time, most systems were batch-oriented mainframes. Another offsite mainframe could be loaded from backup tapes, pending recovery of the primary site.

In 1983 the U.S. government mandated that national banks must have a testable backup plan. Many other industries followed as they understood the significant financial losses associated with long-term outages.

By the 2000s, businesses had become even more dependent on digital online services. With the introduction of big data, cloud, mobile and social media, companies had to cope with capturing and storing massive amounts of data at an exponential rate. DR plans had to become much more complex to account for much larger amounts of data storage from a myriad of devices. The advent of cloud computing in the 2010s helped to alleviate this disaster recovery complexity by allowing organizations to outsource their disaster recovery plans and solutions.

Another current trend that emphasizes the importance of a detailed disaster recovery plan is the increasing sophistication of cyber attacks. Industry statistics show that many attacks stay undetected for well over 200 days. With so much time to hide in a network, attackers can plant malware that finds its way into the backup sets –infecting even recovery data. Attacks may stay dormant for weeks or months, allowing malware to propagate throughout the system. Even after an attack is detected, it can be extremely difficult to remove malware that is so prevalent throughout an organization.

Business disruption due to a cyber attack can have a devastating impact on an organization. For instance, cyber outage at a package delivery company can disrupt operations across its supply chain, leading to financial and reputational loss. In today’s digitally dependent world, every second of that disruption counts.


Why is a disaster recovery plan important?

The compelling need to drive superior customer experience and business outcome is fueling the growing trend of hybrid multicloud adoption by enterprises. Hybrid multicloud, however, creates infrastructure complexity and potential risks that require specialized skills and tools to manage. As a result of the complexity, organizations are suffering frequent outages and system breakdown, coupled with cyber-attacks, lack of skills, and supplier failure. The business impact of outages or unplanned downtime is extremely high, more so in a hybrid multicloud environment. Delivering resiliency in a hybrid multicloud requires a disaster recovery plan that includes specialized skills, an integrated strategy and advanced technologies, including orchestration for data protection and recovery. Organizations must have comprehensive enterprise resiliency with orchestration technology to help mitigate business continuity risks in hybrid multicloud, enabling businesses to achieve their digital transformation goals.

Other key reasons why a business would want a detailed and tested disaster recovery plan include:

  • To minimize interruptions to normal operations.
  • To limit the extent of disruption and damage.
  • To minimize the economic impact of the interruption.
  • To establish alternative means of operation in advance.
  • To train personnel with emergency procedures.
  • To provide for smooth and rapid restoration of service.

To meet today's expectation of continuous business operations, organizations must be able to restore critical systems within minutes, if not seconds of a disruption.

How are organizations using disaster recovery plans?

Many organizations struggle to evolve their DR plan strategies quickly enough to address today’s hybrid-IT environments and complex business operations. In an always-on, 24/7-world, an organization can gain a competitive advantage –or lose market share –depending on how quickly it can recover from a disaster and recover core business services.

Some organizations use external disaster recovery and business continuity consulting services to address a company’s needs for assessments, planning and design, implementation, testing and full resiliency program management.

There are proactive services to help businesses overcome disruptions with flexible, cost-effective IT DR solutions.

With the growth of cyber attacks, companies are moving from a traditional/manual recovery approach to an automated and software-defined resiliency approach. Other companies turn to cloud-based backup services provide continuous replication of critical applications, infrastructure, data and systems for rapid recovery after an IT outage. There are also virtual server options to protect critical servers in real-time. This enables rapid recovery of your applications to keep businesses operational during periods of maintenance or unexpected downtime.

For a growing number of organizations, the solution is with resiliency orchestration, a cloud-based approach that uses disaster recovery automation and a suite of continuity-management tools designed specifically for hybrid-IT environments and protecting business process dependencies across applications, data and infrastructure components. The solution increases the availability of business applications so that companies can access necessary high-level or in-depth intelligence regarding Recovery Point Objective (RPO)Recovery Time Objective (RTO) and the overall health of IT continuity from a centralized dashboard.

In today’s always-on world, your business can’t afford downtime, which can result in revenue loss, reputational damage, and regulatory penalties. Learn how Kyndryl can help transform your IT recovery management through automation to simplify disaster recovery process, increase workflow efficiency, and reduce risk, cost, and system testing time.

How is a disaster recovery plan used in industry?

Hyundai Heavy Industries (HHI) was faced with that harsh reality when a 5.8 magnitude earthquake struck in 2016. Since the company’s backup center was located near headquarters in Ulsan City, Korea, the earthquake served as a wake-up call for HHI to examine its disaster recovery systems and determine preparedness for a full range of potential disruption. In 2016 an earthquake showed just how close a natural disaster could come to damaging Hyundai's mission critical IT infrastructure. The IT leadership responded quickly, working with Kyndryl Business Resiliency Services to implement a robust disaster recovery solution with a remote data center.

What are the key steps of a disaster recovery plan?

The objective of a DR plan is to ensure that an organization can respond to a disaster or other emergency that affects information systems –and minimize the effect on business operations. Kyndryl has a template for producing a basic DR plan. The following are the suggested steps as found in the DR template. Once you have prepared the information, it is recommended that you store the document in a safe, accessible location off site.

  1. Major goals: The first step is to broadly outline the major goals of a disaster recovery plan.
  2. Personnel: Record your data processing personnel. Include a copy of the organization chart with your plan.
  3. Application profile: List applications and whether they are critical and if they are a fixed asset.
  4. Inventory profile: List the manufacturer, model, serial number, cost and whether each item is owned or leased.
  5. Information services backup procedures: Include information such as: “Journal receivers are changed at ________ and at ________.” And: “Changed objects in the following libraries and directories are saved at ____.”
  6. Disaster recovery procedures: For any DR plan, these three elements should be addressed:
    • Emergency response procedures to document the appropriate emergency response to a fire, natural disaster, or any other activities in order to protect lives and limit damages.
    • Backup operations procedures to ensure that essential data processing operational tasks can be conducted after the disruption.
    • Recovery actions procedures to facilitate the rapid restoration of a data processing system following a disaster.
  7. DR plan for mobile site: The plan should include a mobile site setup plan, a communication disaster plan (including the wiring diagrams) and an electrical service diagram.
  8. DR plan for hot site: An alternate hot site plan should provide for an alternative (backup) site. The alternate site has a backup system for temporary use while the home site is being reestablished.
  9. Restoring the entire system: To get your system back to the way it was before the disaster, use the procedures on recovering after a complete system loss in Systems management: Backup and recovery.
  10. Rebuilding process: The management team must assess the damage and begin the reconstruction of a new data center.
  11. Testing the disaster recovery and cyber recovery plan: In successful contingency planning, it is important to test and evaluate the DR plan regularly. Data processing operations are volatile in nature, resulting in frequent changes to equipment, programs and documentation. These actions make it critical to consider the plan as a changing document.
  12. Disaster site rebuilding: This step should include a floor plan of the data center, the current hardware needs and possible alternatives –as well as the data center square footage, power requirements and security requirements.
  13. Record of plan changes: Keep your DR plan current. Keep records of changes to your configuration, your applications and your backup schedules and procedures.

O que é um plano de recuperação de desastres (DR)?

Um plano de recuperação de desastres aumenta sua resiliência e sua capacidade de recuperação cibernética

Como funcionam os planos de recuperação de desastres?

Os planos de recuperação de desastres são documentos oficiais, elaborados por uma empresa. Eles contêm instruções detalhadas para reagir a diversos imprevistos, como desastres naturais, quedas de energia, ataques cibernéticos e outros incidentes prejudiciais. O plano contém estratégias para minimizar os efeitos de um desastre, para que uma organização continue a operar - ou retome rapidamente suas principais operações.

As interrupções podem resultar em perda de receita, danos à marca e clientes insatisfeitos. Quanto maior for o tempo de recuperação, maior será o impacto sobre os negócios. Portanto, planos eficazes para recuperação de desastres devem permitir recuperação rápida após interrupções de qualquer tipo ou origem.

Com o serviço de recuperação de desastres (DRaaS), você protege a continuidade das operações de sua empresa com recuperação de desastres na nuvem, tornando possível uma retomada em questão de minutos.

Conheça o DRaaS

Os planos de recuperação de desastres são mais específicos que os planos de continuidade empresarial. Eles nem sempre cobrem todo tipo de medida contingencial para todos os procedimentos, ativos, profissionais e parceiros de negócio da empresa.

Uma solução eficaz de recuperação de desastres geralmente abrange todos os tipos de interrupção e não apenas os mais comuns. As interrupções podem ser causadas por queda de energia, falhas do sistema telefônico, perda temporária de acesso a uma instalação devido a ameaças de bomba, um "possível incêndio" ou um incêndio não destrutivo de baixo impacto, inundação ou outro evento. Um plano de DR deve ser organizado por tipo de desastre e localização. Ele deve conter scripts (instruções) que podem ser implementados por qualquer pessoa.

Antes da década de 1970, a maioria das organizações se preocupava apenas em fazer cópias de seus registros físicos. O planejamento de recuperação de desastres ganhou destaque durante a década de 1970, à medida que as empresas começaram a depender mais fortemente das operações com base em computadores. Naquela época, a maioria dos sistemas eram mainframes orientados por lote. Outro mainframe externo poderia ser carregado a partir de fitas de backup, enquanto se aguardava a recuperação do site principal.

Em 1983, o governo dos Estados Unidos determinou que os bancos nacionais deveriam ter um plano de backup que poderia ser testado. Esse exemplo foi seguido por empresas de diversos segmentos, pois já estava evidente para todos que interrupções demoradas causam grandes prejuízos.

Nos anos 2000, as empresas já dependiam ainda mais de serviços digitais em rede. Com o advento do big data, da nuvem, dos smartphones e das redes sociais, as empresas passaram a lidar com volumes cada vez mais maiores de captação e armazenamento de dados. Por conta desse aumento exponencial no volume de dados e na variedade de dispositivos existentes, os planos de recuperação de desastres se tornaram muito mais complexos. A partir de 2010, com o advento da computação em nuvem, foi possível diminuir essa complexidade, com as empresas terceirizando seus planos e soluções de recuperação. Isso marcou o surgimento dos serviços de recuperação de desastres, também conhecidos como "recuperação de desastre como serviço" e pela sigla DRaaS.

A crescente sofisticação dos ataques cibernéticos é um fenômeno atual que ressalta ainda mais a importância de se implementar um plano minucioso de recuperação de desastres. Levantamentos estatísticos mostram que diversos ataques passam despercebidos por muito mais do que 200 dias. Com tanto tempo para se esconder em uma rede, os invasores podem inserir um malware que pode se espalhar pelos conjuntos de backup, infectando até mesmo os dados de recuperação. Os ataques podem ficar adormecidos por semanas ou meses, permitindo que malwares se propaguem por todo o sistema. Mesmo após um ataque ser detectado, pode ser extremamente difícil remover malwares que estão espalhados por toda a organização.

Cada segundo conta: recuperação rápida para serviços de entregas.

A interrupção de negócios devido a um ataque cibernético pode ter um impacto devastador em uma organização. Por exemplo, a interrupção cibernética em uma empresa de entrega de pacotes pode suspender as operações em toda a sua cadeia de fornecimento, resultando na perda de receita e em impacto na reputação. No mundo contemporâneo, que depende cada vez mais da tecnologia digital, cada segundo após uma interrupção é importante.

Por que um plano de recuperação de desastres é importante?

As empresas recorrem cada vez mais à multicloud híbrida por conta da crescente necessidade de aprimorar a satisfação do cliente e os resultados de seus próprios negócios. A multicloud híbrida, no entanto, aumenta a complexidade da infraestrutura e a quantidade de riscos. Por conta disso, sua gestão requer qualificação e ferramentas especializadas. Como resultado da complexidade, as organizações estão sofrendo frequentes interrupções e falhas no sistema, juntamente com ataques cibernéticos, falta de habilidades e falha do fornecedor. O impacto de negócios das interrupções ou da inatividade não planejada é extremamente alto, mais ainda em um ambiente multicloud híbrido. Oferecer resiliência em uma multicloud híbrida requer um plano de recuperação de desastres que inclua qualificações especializadas, uma estratégia integrada e tecnologias avançadas, incluindo orquestração para proteção de dados e recuperação. As organizações devem ter resiliência corporativa abrangente com tecnologia de orquestração para ajudar a reduzir os riscos de continuidade de negócios na multicloud híbrida e permitir que as empresas alcancem seus objetivos de transformação digital

Outras razões para uma empresa adotar um plano de recuperação de desastres detalhado e testado:

  • Minimizar interrupções em operações normais.
  • Limitar a extensão da interrupção e dos danos.
  • Minimizar o impacto econômico da interrupção.
  • Estabelecer meios alternativos de funcionamento com antecedência.
  • Treinar as equipes com procedimentos de emergência.
  • Proporcionar uma restauração fluída e rápida do serviço.

Para atender as expectativas do mundo atual de promover operações de negócios contínuas, as organizações devem ser capazes de restaurar sistemas críticos em minutos, ou segundos, após uma interrupção.

Como as empresas utilizam seus planos de recuperação de desastres?

Muitas organizações têm dificuldade para desenvolver suas estratégias de plano de recuperação de desastres rápido o suficiente para proteger os ambientes híbridos de TI atuais e as complexas operações de negócios. Em um mundo conectado 24x7, uma empresa pode obter uma vantagem competitiva, ou perder uma fatia do mercado, se conseguir se recuperar de desastres rapidamente e recuperar seus serviços essenciais para os negócios.   

No tocante a planos de recuperação de desastres e à continuidade de suas operações, algumas empresas recorrem a consultores externos. Eles realizam as análises necessárias e contribuem com o planejamento, a elaboração, a implementação, os testes e a gestão de programas completos de resiliência.

Alguns serviços proativos, como o de recuperação de infraestrutura de informática da Kyndryl, contribuem para que as empresas superem as interrupções inesperadas, fornecendo soluções flexíveis e acessíveis para recuperar a estrutura de TI após um desastre.

Com o crescimento dos ataques cibernéticos, as empresas estão mudando a abordagem de recuperação tradicional/manual para uma abordagem de resiliência automatizada e definida por software. Os serviços de resiliência cibernética da Kyndryl fornecem tecnologias avançadas e recomendações práticas para avaliar melhor os riscos e priorizar e proteger, com mais eficácia, os dados e aplicações essenciais da empresa. Tais soluções auxiliam as empresas a manterem suas atividades durante um ataque cibernético, ou a retomá-las no menor tempo possível.

Outras empresas recorrem a serviços de backup em nuvem, como o serviço de recuperação de desastres da Kyndryl (DRaaS). Eles fornecem replicação contínua dos sistemas, dos dados, da infraestrutura e das aplicações mais essenciais. Isso permite que a estrutura de TI volte a operar rapidamente após uma interrupção. Outros serviços, como a recuperação por servidor virtual em nuvem, fornecida pela Kyndryl, empregam a virtualização para conferir proteção em tempo real aos servidores mais essenciais. Com eles, suas aplicações são recuperadas rapidamente, em um centro de resiliência da Kyndryl. Com isso, as atividades da empresa são preservadas durante rotinas de manutenção e em meio a interrupções imprevistas.

Um número cada vez maior de empresas emprega a resiliência orquestrada. Esta abordagem utiliza a nuvem, recuperação automatizada e uma série de ferramentas de gerenciamento projetadas especificamente para ambientes híbridos de TI. Um exemplo é o serviço de resiliência orquestrada da Kyndryl, que preserva as dependências dos processos da empresa e cobre aplicações, dados e componentes de infraestrutura. Ele aumenta a disponibilidade das aplicações empresariais, permitindo assim que as empresas recorram, mediante uso de painel centralizado, a conhecimentos aprofundados ou especializados o suficiente para os objetivos de ponto de recuperação (RPOs) e de tempo de recuperação (RTO) serem implementados e o estado geral de continuidade da TI ser preservado.

No mundo sempre conectado da atualidade, o preço da inatividade é muito alto, com perda de receita, danos à reputação e penalizações legais. Veja como o Kyndryl Cloud Resiliency Orchestration contribui para revolucionar a gestão e a recuperação de seus sistemas de TI. Ele emprega a automatização para simplificar os procedimentos de recuperação, aumentar a eficiência do fluxo de trabalho e reduzir as despesas, os riscos e o volume de testes.

Como os planos de recuperação de desastres são utilizados no mercado?

A Hyundai Heavy Industries (HHI) percebeu como a vida é implacável quando um terremoto de 5,8 graus na escala Richter atingiu suas instalações em 2016. Como seu centro de backups ficava nas redondezas, na cidade coreana de Ulsan, o episódio serviu de alerta para a empresa reexaminar seus sistemas de recuperação e se preparar melhor para interrupções de maior envergadura.

A Hyundai viu, em primeira mão, como sua infraestrutura essencial de TI era vulnerável a catástrofes naturais. Felizmente seus diretores de TI reagiram de imediato, operando lado a lado com os profissionais de resiliência empresarial da Kyndryl para implementar um robusto esquema de recuperação, em um datacenter remoto.

Quais são as principais etapas de um plano de recuperação de desastres?

Os planos de recuperação de desastres têm como objetivo garantir reação apropriada a desastre ou emergência que afete os sistemas de informação de uma empresa, minimizando assim os efeitos sobre as suas atividades.A Kyndryl criou um modelo de elaboração de planos básicos de recuperação de desastres. Seguem abaixo os procedimentos indicados, conforme apresentados no modelo. Depois de preparar as informações, recomenda-se armazená-las em um local seguro e acessível, fora das instalações da empresa.

Etapa 1: Objetivos principais: O primeiro passo é fazer um esboço dos principais objetivos do plano de recuperação.

Etapa 2: Pessoal: Fazer registros dos profissionais que processam os dados. Inclua uma cópia do gráfico de organização com o seu plano.

Etapa 3: Perfil da aplicação: Listar as aplicações, indicando se elas são essenciais e se são ativos fixos.

Etapa 4: Perfil do estoque: Liste o fabricante, o modelo, o número de série e o preço de cada elemento, indicando se ele é da própria empresa ou cedido por terceiros.

Etapa 5: Procedimentos de backup dos serviços de informação: Indique o procedimento adotado, incluindo dados como: "Os destinatários dos registros são alterados às ________ e às ________." e: "Objetos modificados das seguintes bibliotecas e diretórios foram armazenados em ____."

Etapa 6: Procedimentos de recuperação: Todo plano de recuperação de desastres precisa conter os seguintes elementos:

  • Procedimentos de resposta de emergência para documentar a resposta adequada a um incêndio, catástrofe natural ou quaisquer outras atividades, a fim de proteger vidas e reduzir os danos.
  • Procedimentos de operações de backup para garantir que as tarefas operacionais essenciais de processamento de dados possam ser conduzidas após a interrupção.
  • Procedimentos para o sistema de processamento de dados ser restaurado rapidamente após um desastre.

Etapa 7: Plano de restauração para instalações móveis: Plano de implementação de estrutura física móvel, plano de comunicação emergencial (incluindo plantas de engenharia, indicando os locais da fiação) e uma planta de engenharia indicando a estrutura de abastecimento elétrico.

Etapa 8: Plano de restauração em estrutura física emergencial: Um plano para implementação de estrutura física temporária e emergencial. Tal estrutura temporária e emergencial precisa contar com sistema provisório de backup, a ser utilizado enquanto a estrutura física original da empresa permanecer indisponível.

Etapa 9: Restauração integral: Para fazer o sistema retornar ao estado anterior ao desastre, empregue os procedimentos de recuperação indicados em "Gestão de sistemas: Backup e restauração" para perdas completas do sistema.

Etapa 10: Reconstrução: A equipe de gerenciamento avalia os danos e inicia a remontagem ou montagem de um novo data center.

Etapa 11: Teste do plano de recuperação: Para o planejamento ser bem-sucedido, é importante testar e avaliar regularmente o plano de recuperação de desastres e a restauração de TI. As operações de processamento de dados são voláteis por natureza, resultando em mudanças frequentes de equipamentos, programas e documentação. Por conta disso, é essencial encarar o plano como um documento em constante mudança.

Etapa 12: Reconstrução das instalações: Para essa etapa, recomenda-se utilizar uma planta baixa do data center e listar os equipamentos de hardware necessários, com possíveis alternativas. Inclua também medidas de área do data center, a estrutura necessária para o abastecimento de energia e os requisitos de segurança.

Etapa 13: Registro de modificações no plano: deixe seu plano de recuperação sempre atualizado. Registre todas as mudanças feitas na configuração, nas aplicações e nas rotinas e procedimentos de backup.