Recuperar dominio Active Directory después de tombstone lifetime sin perder datos

Cuando el ciclo de vida de un tombstone expira y un controlador de dominio (DC) deja de replicar, la continuidad de Active Directory se pone en riesgo. Sin embargo, con la estrategia adecuada es posible devolver la infraestructura a un estado saludable sin reconstruir todo el bosque.

Índice

Resumen del escenario

En un bosque con solo dos DC, ambos dejaron de replicar porque superaron el tombstone lifetime. El objetivo es averiguar si basta con seleccionar uno de los DC, retirar el otro y volverlo a unir al dominio, o si la situación requiere acciones más drásticas. A continuación se describe un procedimiento paso a paso para recuperar el dominio de forma segura.

Pasos de recuperación recomendados

PasoAcciónPropósito
1Seleccionar el DC más sano (el que aún inicia NTDS y no muestra corrupción grave con dcdiag/repadmin).Disponer de una copia “autoritaria” de la base de AD.
2Aislar temporalmente ese DC para evitar replicación con el DC caducado.Impedir la propagación de datos obsoletos.
3Seize de los cinco roles FSMO en el DC superviviente con ntdsutil.Garantizar que todos los roles maestros residen en el DC válido.
4Limpiar los metadatos del DC obsoleto (ntdsutil metadata cleanup, eliminación de objetos en Sites & Services y de registros DNS).Borrar cualquier referencia al DC caducado.
5Verificar el estado (dcdiag /v, repadmin /replsummary).Asegurarse de que no queden errores ni referencias rotas.
6Promover un servidor nuevo (Windows Server compatible) como DC con Add‑ADDSDomainController.Restablecer redundancia y replicación normal.
7Esperar replicación completa y, opcionalmente, transferir de nuevo FSMO si conviene.Terminar la recuperación y equilibrar la infraestructura.
8Degradar y retirar (demote) el DC antiguo si ya no se necesita.Mantener un entorno limpio y soportado.

Detalles paso a paso

Elección del controlador de dominio superviviente

Utiliza dcdiag /v para comprobar la integridad de cada DC. Presta especial atención a pruebas como Connectivity, Advertising y los roles FSMO. Si un DC no puede iniciar el servicio NTDS o muestra errores de base de datos, descártalo de inmediato.

Aislamiento de red

Desconectar temporalmente el cable de red o aplicar reglas de firewall que bloqueen los puertos de replicación (135 RPC, 389/636 LDAP, 3268/3269 GC, 88 Kerberos, etc.). El objetivo es impedir que el DC obsoleto envíe objetos eliminados o versiones antiguas.

Seize de FSMO

  • Abre una consola con privilegios elevados.
  • Ejecuta ntdsutil > roles.
  • Conecta al servidor superviviente: connections > connect to server DC-SANO.
  • Ejecuta seize schema master, seize naming master, seize RID master, seize PDC y seize infrastructure master.

Una vez finalizado, verifica que los roles residen en el DC correcto con netdom query fsmo.

Limpieza de metadatos

La eliminación de restos debe abarcar tres frentes:

  1. NTDSUTIL – Comando metadata cleanup para borrar el objeto nTDSDSA.
  2. Active Directory Sites & Services – Eliminar el servidor y el contenedor NTDS Settings.
  3. DNS – Purgar registros A, CNAME, SRV y las señas de _msdcs que apunten al DC retirado.

Validación de estado

Hasta que repadmin /showrepl * no muestre errores y dcdiag no detecte referencias de objetos huérfanos (zombies), no avances al siguiente paso. Analiza el Visor de eventos para cerciorarte de que no quedan entradas 1865, 1311 o 2042.

Promoción de un nuevo DC

Instala las características AD DS y RSAT, ejecuta Install‑ADDSDomainController o el asistente de ADDS — asegúrate de definir correctamente el sitio, la funcionalidad de bosque y la ubicación de las bases de datos (C:\Windows\NTDS) y de la carpeta SYSVOL.

Install‑WindowsFeature AD‑Domain‑Services
Import‑Module ADDSDeployment
Add‑ADDSDomainController `
    -InstallDns `
    -Credential (Get‑Credential) `
    -DomainName "contoso.local" `
    -SiteName "HQ" `
    -SafeModeAdministratorPassword (Read‑Host "DSRM Password" -AsSecureString) `
    -Force

Redundancia y equilibrio de roles

Una vez que la replicación sea estable, decide si deseas redistribuir FSMO. Por ejemplo, mantener el PDC Emulator en el DC de mejor hardware y ubicar el RID Master en otro para repartir carga. Usa Move‑ADDirectoryServerOperationMasterRole para transferir, no seize, cuando todo funcione.

Puntos críticos de la recuperación

  • Nunca reincorpores un DC que superó el tombstone lifetime sin reinstalar. Hacerlo introduce objetos desfasados y provoca fragmentación de USNs.
  • Copias de seguridad de estado del sistema: imprescindibles antes de tocar metadatos o promover/degradar DC.
  • Ambos DC corruptos: si los dos están “tombstoned”, solo una restauración desde backup o un forest recovery completo devolverá la coherencia.
  • Verifica la hora: problemas de Kerberos y de replicación suelen rastrearse a desfases de NTP; asegúrate de que el servicio de tiempo apunte a una fuente confiable.

Conceptos clave explicados

¿Qué es el tombstone lifetime?

Es el periodo (60 días en versiones anteriores a 2003 SP1 y 180 días en 2003 SP1 +) durante el cual los objetos eliminados se conservan como marcadores (tombstones). Después, los DC dejan de replicar con socios cuyos datos parezcan demasiado antiguos para fiarse, evitando así reintegrar información obsoleta.

Herramientas esenciales para el diagnóstico

HerramientaUso principal
dcdiagPruebas de salud general; detecta fallos de servicios, DNS y referencias cruzadas.
repadminComando de cabecera para examinar replicación y forzar kcc.
ntdsutilSeize de FSMO, limpieza de metadatos, reparaciones offline de la BD.
Visor de eventosRegistro de ID 2042 (tombstone expirado) y advertencias relacionadas.
Active Directory Administrative CenterInterfaz moderna para gestionar objetos, contraseñas y vistas de replicación.

Buenas prácticas para prevenir la situación

  1. Plan de copias de seguridad: programa system state backups diarios o semanales, probados regularmente.
  2. Al menos tres DC por dominio dispersados en sitios diferentes; un número impar facilita quórum en fallos de red.
  3. Monitoreo de replicación: integra alertas de repadmin /replsummary y eventos 2042, 1865 y 1311.
  4. Mantenimiento de NTDS: desfragmentación offline ocasional y revisión de tamaño de base.
  5. Política de parches: actualiza Windows Server y reinicia DC con frecuencia controlada para evitar shutdowns prolongados.

Escenarios alternativos y respuestas

Solo un DC tombstoned, el otro operativo

Procedimiento descrito arriba. Aísla, seize FSMO, limpia, promueve.

Ambos DC tombstoned

  • Restauración desde backup: si existiera una copia de estado del sistema (pre‑tombstone), restaúrala en hardware limpio.
  • Forest recovery: en ausencia de backup, sigue la guía oficial de recuperación de bosque creando un nuevo dominio raíz y migrando recursos.
  • Reinstalación total: último recurso cuando no hay forma de rescatar datos de AD; implica recrear usuarios, grupos y políticas.

Inconsistencias de USN y objetos huérfanos

Tras una reintegración inadecuada, pueden aparecer lingering objects. Usa repadmin /removelingeringobjects para purgar y repadmin /istg para seleccionar un nuevo generador de topología.

Preguntas frecuentes

¿Puedo reducir el tombstone lifetime para acelerar purgas? No es recomendable. Valores menores a 60 días comprometen la resiliencia en escenarios de sitios remotos con latencias altas. ¿Qué pasa con los controladores de solo lectura (RODC)? El proceso es similar, pero los RODC no poseen roles FSMO. Basta con despromover y volver a promocionar tras la recuperación del DC de escritura. ¿Necesito reiniciar todos los servidores miembro? No. Mientras el DC autoritario asuma el rol PDC y replicación funcione, los miembros actualizarán sus tickets Kerberos automáticamente.

Conclusión

Superar el tombstone lifetime no significa la sentencia de muerte de tu bosque. Con un DC sano, un aislamiento correcto y una limpieza meticulosa de metadatos, es posible restaurar la replicación y devolver la redundancia al dominio. Lo crucial es actuar con método, verificar cada etapa y mantener copias de seguridad validadas. Así evitarás la pérdida de identidades y la interrupción prolongada de servicios dependientes de Active Directory.

Índice