Error Event ID 153 en Windows Server 2022 Datacenter: diagnóstico y solución definitiva

Cuando Windows Server 2022 Datacenter muestra de forma repetitiva el Error Event ID 153 (“The I/O operation at logical block address … was retried”), solemos enfrentarnos a un fallo en la capa de almacenamiento que pone en riesgo la disponibilidad del servicio. En esta guía aprenderás a identificar si el origen es hardware, cuándo conviene reemplazar componentes —o incluso el servidor completo— y qué acciones correctivas aplicar para devolver la estabilidad al sistema.

Índice

Resumen del error

Event ID 153 aparece en el Visor de eventos (System ➜ Disk) cuando Windows necesita reintentar una operación de lectura/escritura porque la respuesta inicial del dispositivo fue insatisfactoria o demasiado lenta. Aun cuando el sistema logra finalmente acceder al bloque lógico, la reiteración implica una degradación del rendimiento y una alerta de fiabilidad del medio físico o de la ruta de datos.

Síntomas clave

Congelación parcial o total de servicios —especialmente aquellos con alto uso de disco, como SQL Server o Hyper‑V.
Spikes anómalos de latencia en métricas de I/O (PerfMon: Avg. Disk sec/Read & Write).
Mensajes concomitantes en el visor: Event ID 7, 51, 129, 157 o 11.
Reinicios automáticos tras watchdog o BSOD con CRITICALPROCESSDIED o UNEXPECTEDSTOREEXCEPTION.
Tiempo de arranque creciente y fallos en procesos de backup o VSS.

Causas frecuentes

Componente	Ejemplos de fallo	Indicador típico
Discos físicos (SAS, SATA, NVMe)	Sectores reasignados, errores SMART 5, 187, 197.	Light amber en la bahía; Event ID 7, 157.
Cableado / backplane	Conectores flojos, polvo, vicios de masa.	Event ID 153 aleatorio entre distintas LUN.
Controladora RAID / HBA	Firmware obsoleto, caché inconsistente, batería BBU agotada.	Event ID 129 “Reset to device, \Device\RaidPortX”.
Drivers de almacenamiento	Compatibilidad incompleta con Windows Server 2022.	Error tras actualización mayor del SO.
Plano de energía	UPS sin calibrar, picos de tensión.	Co‑ocurrencia con Event ID 41 (Kernel‑Power).

Guía de diagnóstico

Pruebas de hardware

Ejecuta el diagnóstico offline del fabricante (Lenovo DST, Dell ePSA, HPE Insight Diagnostics). Prioriza pruebas extensivas de superficie.
Revisa los valores SMART con Get-PhysicalDisk | Get-StorageReliabilityCounter. Sectores pendientes > 0 son señal de reemplazo inminente.
Intercambia el disco sospechoso a otro slot: si el error se mueve con el disco, confirma defecto físico. Si permanece en la bahía, inspecciona backplane o cables mini‑SAS/Oculink.

Actualización de firmware y controladores

Registra la versión de BIOS, iDRAC/iLO/iRMC y firmware RAID / HBA.
Descarga el service pack más reciente certificado para Windows Server 2022.
Programa una ventana de mantenimiento; ejecuta la actualización siguiendo la matriz de interoperabilidad (comienza por BIOS ➡ controladora ➡ discos ➡ backplane).
Aplica el último driver firmado WHQL; reinicia y monitorea.

Validación del sistema operativo

Corre el Verificador de controladores (verifier.exe /standard /all) para descartar controladores defectuosos.
Revisa chkdsk /scan en volúmenes NTFS /ReFS; si se detectan corrupciones, planifica chkdsk /f /r en modo offline.
En Hyper‑V, inspecciona el archivo .vmrs de máquinas virtuales para evitar que la actividad de punto de control o snapshots exacerbe la latencia.

Monitoreo en tiempo real

Para discriminar picos de latencia, crea un contador de rendimiento personalizado que recoja cada 15 segundos:

\LogicalDisk(*)\Avg. Disk sec/Read
\LogicalDisk(*)\Avg. Disk sec/Write
\PhysicalDisk(*)\Split IO/Sec
\Processor(_Total)\% Interrupt Time

Valores sostenidos > 0,02 s sugieren estrangulamiento en la ruta de I/O.

Reason & Solution PLZ

Si las pruebas físicas confirman sectores reasignados o errores persistentes, el motivo (reason) es un fallo hardware; la solución (solution) es sustituir el componente defectuoso:

Disco individual en RAID 1/5/6 Retira la unidad, inserta repuesto de igual capacidad o superior, arranca la reconstrucción y verifica integridad con Consistency Check.
Controladora RAID Respaldar la tabla de array, reemplazar la controladora, restaurar configuración, validar con omreport storage vdisk o equivalente.
Backplane o cable SAS Sustituir el backplane; aplica limpieza antiestática y amarra cableado correctamente.
Firmware/driver desfasado Actualiza y prueba con StorPort.sys o driver OEM actualizado; reinicia para liberar IRQs.
Fallo de energía Reemplaza UPS o calibra batería; activa Write‑Cache Backup Power Mode.

Cuándo reemplazar el servidor completo

Persistencia del Event ID 153 tras sustituir dos o más discos y la controladora.
Plataforma fuera de garantía (EoS/EoL) o con microcortes eléctricos recurrentes.
Coste de parada superior al ROI de migrar a hardware fresco con NVMe Gen4 o cabina externa.
Necesidad de aprovechar nuevas funciones (Storage Spaces Direct, SMB over QUIC) incompatibles con la generación actual.

Buenas prácticas preventivas

Implementa un plan de mantenimiento continuo que reduzca la recurrencia de este evento:

Programa scrubs de consistencia (RAID patrol read o chkdsk /scan semanal).
Automatiza alertas de SMART y temperatura (umbral 50 °C en discos SAS).
Documenta y estandariza versiones de firmware en todos los nodos.
Activa políticas rígidas de write‑back cache solo con BBU en buen estado.
Mantén inventario de repuestos críticos (uno por cada tipo de disco y una controladora de reserva).

Checklist rápida para el administrador

¿Existe backup íntegro y probado?
¿Se han actualizado BIOS + firmware + drivers?
¿Los tests SMART y de superficie han fallado?
¿Hay otros eventos de disco correlacionados?
¿La aplicación de negocio acusa latencia de I/O?
¿Se dispone de piezas de recambio o es más rentable reemplazar el servidor?

Preguntas frecuentes

¿Este error puede ser solo software?

Poco probable. Si bien un driver defectuoso puede detonarlo, la mayoría de ocurrencias derivan de hardware inestable o mal configurado.

¿chkdsk elimina el Event ID 153?

Solo si la causa es corrupción lógica menor. Si existen sectores físicos defectuosos, volverá a aparecer.

¿Es seguro ignorar el evento si el servidor sigue funcionando?

No. El reintento implica que los tiempos de acceso ya se están deteriorando; postergar la reparación puede derivar en pérdida de datos.

Scripts útiles

PowerShell: captura rápida de discos con sectores reasignados

$BadDisks = Get-PhysicalDisk | Where-Object {($.MediaType -ne 'Unspecified') -and ($.HealthStatus -ne 'Healthy' -or $_.OperationalStatus -ne 'OK')}
$BadDisks | Select FriendlyName,SerialNumber,HealthStatus,OperationalStatus | Format-Table -Auto

CLI iDRAC (Dell) para ver estado de batería BBU

racadm storage get controllers | findstr /i "Battery State"

Conclusión

Event ID 153 es una señal temprana —y rara vez inocua— de que la ruta de almacenamiento está fallando. Un diagnóstico metódico que combine health checks de hardware, actualización de firmware y verificación de cableado suele revelar la causa raíz. Si los errores persisten tras reemplazar discos o controladoras, la inversión en un servidor nuevo suele ser la solución más rentable y segura para la continuidad operativa.