Por. Chris Rogers
Las pruebas de recuperación ante desastres (DR) son importantes en todas las industrias y empresas de todos los tamaños para garantizar la continuidad del negocio y la recuperación ante desastres. Sin embargo, con demasiada frecuencia, la falta de una implementación adecuada de las pruebas de DR y la baja frecuencia de estas hacen que las empresas piensen que son seguras. En realidad, son muy vulnerables cuando ocurre un escenario de RD real.
Importancia de la recuperación ante desastres
Los entornos de TI cambian constantemente y las pruebas de recuperación ante desastres son fundamentales para identificar brechas, mantener actualizados los planes de recuperación ante desastres y capacitar a los equipos sobre los procedimientos. Una vez que establezca un plan de recuperación ante desastres, puede parecer a prueba de balas, pero solo implementando las pruebas de recuperación ante desastres puede asegurarse de que su organización está realmente preparada.
Estos son algunos elementos importantes para su lista de verificación de pruebas de recuperación de desastres para que su organización no caiga en la trampa de la seguridad falsa:
Frecuencia de prueba
Probar su plan de recuperación ante desastres anualmente puede mantener satisfechos a los auditores de cumplimiento, pero ¿es suficiente para mantenerlo realmente preparado para un desastre real? Es probable que su entorno de TI cambie con frecuencia durante el año a medida que agrega o actualiza aplicaciones, plataformas e infraestructura. Debido a estos cambios frecuentes, las pruebas de recuperación ante desastres tienen un papel mucho más importante que desempeñar que simplemente aprobar una auditoría; la importancia de la recuperación ante desastres es tan grande que, de hecho, literalmente podría salvar su organización.
Las pruebas de DR, cuando se realizan en un sitio de TI completo o en varios sitios, pueden ser una operación a gran escala, que requiere una gran cantidad de tiempo de su personal. La cantidad de tiempo y esfuerzo necesarios es a menudo la razón por la que las pruebas de recuperación ante desastres se llevan a cabo solo una vez al año; simplemente tienen un impacto demasiado grande en las operaciones diarias de una organización.
Incluso si una prueba a gran escala se considera razonable solo una vez al año en su organización, no ignore las pruebas de recuperación ante desastres. Realice pruebas más frecuentes y a menor escala para ayudar a mantener actualizado su plan de recuperación ante desastres y capacitar a sus equipos. Cada organización enfrenta riesgos únicos y la evaluación de sus riesgos es una parte importante para determinar una plantilla de prueba de recuperación de desastres para su organización que incluya la frecuencia con la que se deben realizar las pruebas de DR para ayudar a mitigar esos riesgos.
Configuración de su plantilla de prueba de recuperación ante desastres: completa o parcial
Después de establecer su plan de recuperación ante desastres, la siguiente pregunta es cómo probar ese plan. Hay muchos beneficios al realizar una prueba de DR completa y a gran escala que simula de cerca un desastre real. Para ayudarlo a formular mejores planes para enfrentar un verdadero escenario de recuperación ante desastres, aplique condiciones que simulen un desastre real, como:
Comunicaciones limitadas
Personal limitado
Redes limitadas
Tener personal que realice la prueba en estas condiciones producirá los mejores resultados para mejorar su plan de recuperación ante desastres. Pero como se mencionó anteriormente, estas pruebas a gran escala pueden requerir mucho tiempo y personal.
Aquí es donde las pruebas de recuperación de desastres parciales pueden resultar valiosas. No todas las pruebas de DR tienen que ser una prueba de sitio completa o un intento de simular todas las condiciones de un desastre del mundo real. En su lugar, es posible que pueda ejecutar una prueba en la recuperación de una aplicación individual una vez a la semana o cada dos semanas. En estas pruebas de recuperación ante desastres a pequeña escala, es posible realizar un análisis más detallado del plan de recuperación ante desastres para esa aplicación.
Ahora vivimos en un mundo donde el ransomware, en lugar de un desastre tradicional, es mucho más probable que active su plan de recuperación ante desastres; es posible que el impacto no afecte a todo un sitio, sino que, en cambio, se dirija a un subconjunto de aplicaciones. Tener la capacidad de ejecutar pruebas de recuperación ante desastres en aplicaciones individuales puede resultar vital para hacer pivotar la estrategia de recuperación ante desastres de su organización y ayudar a que su plan de recuperación ante desastres sea más flexible en respuesta a una variedad más amplia de desastres.
Métricas y factores de éxito
Su lista de verificación de pruebas de recuperación de desastres debe incluir métricas esenciales. Asegúrese de saber qué métricas está registrando y midiendo y qué factores definen las pruebas de recuperación ante desastres como exitosas: conocerlas garantizará, en primer lugar, que su plan de recuperación ante desastres cumpla con las expectativas comerciales y, en segundo lugar, proporcionará una medida para las mejoras.
Las dos primeras métricas a considerar son el objetivo de punto de recuperación (RPO) y el objetivo de tiempo de recuperación (RTO). Al minimizar ambas métricas, su organización puede potencialmente ahorrar cientos de miles de dólares en costos de tiempo de inactividad.
Tomemos RPO primero. Minimizar la cantidad de pérdida de datos en cualquier escenario real de recuperación ante desastres debería ser de suma importancia para todas las organizaciones. Debido a que algunos datos simplemente no se pueden reemplazar, desea conservar la mayor cantidad posible durante cualquier interrupción, lo que significa establecer un RPO bajo. Al elaborar su plan de recuperación ante desastres, asegúrese de que el RPO se establezca según los requisitos de su organización y no de acuerdo con las limitaciones que TI tiene con sus herramientas actuales. Los RPO en segundos se pueden lograr en miles de VM con las herramientas adecuadas en su lugar.
El RTO se puede medir de muchas maneras y, dependiendo de esa decisión, se puede considerar un éxito o un fracaso. Sugeriría medir el RTO como el tiempo que lleva poner la aplicación en funcionamiento y dar servicio completo a sus usuarios; El RTO no solo debe medirse desde el momento en que se inicia la VM.
Cómo la plataforma Zerto puede ayudar con las pruebas de recuperación ante desastres
Zerto ofrece pruebas de conmutación por error completamente orquestadas y automatizadas con informes integrados para fines de cumplimiento. Las pruebas de DR con Zerto no tienen ningún impacto en las cargas de trabajo de producción y se pueden realizar en cualquier momento con un mínimo de personal, lo que permite que las pruebas de DR se lleven a cabo de forma más regular y sin interrupciones en su organización.
Debido a que Zerto ofrece un enfoque único centrado en la aplicación para la protección de datos, las organizaciones pueden realizar pruebas de DR parciales que están dirigidas a ciertas aplicaciones, en lugar de ejecutar siempre una prueba de DR completa. Al agrupar las máquinas virtuales que componen aplicaciones completas, puede crear y ejecutar una prueba de recuperación ante desastres en un solo grupo de recuperación con facilidad en cualquier momento, de día o de noche. De esta manera, puede hacer que las pruebas de recuperación ante desastres formen parte de cualquier proceso de cambio para garantizar que los cambios no tengan un impacto negativo en su plan de recuperación ante desastres. La creación de grupos de coherencia de múltiples máquinas virtuales también reduce en gran medida el RTO, ya que toda la aplicación se recupera a un punto constante en el tiempo, lo que garantiza que las aplicaciones se recuperen rápidamente y con una interacción manual mínima.
El uso de la protección de datos continua (CDP) permite a los clientes de Zerto lograr RPO de segundos a escala, minimizando la pérdida de datos y reduciendo el impacto general de cualquier interrupción. Al utilizar el motor CDP exclusivo de Zerto, las organizaciones no solo pueden reducir el tiempo de inactividad, sino también mitigar el riesgo al usar tecnologías heredadas como instantáneas o agentes, y todos sabemos que esas tecnologías heredadas pueden hacer que las cargas de trabajo de producción se ralenticen o fallen por completo.
Si no está seguro de qué está en juego exactamente si se produce un tiempo de inactividad para su organización, ejecute la calculadora de tiempo de inactividad para evaluar sus costos potenciales. ¿Para obtener más orientación y pasos? Consulte nuestra lista de verificación de los elementos esenciales de las pruebas de recuperación ante desastres .
コメント