Cuando Windows Server 2022 Datacenter muestra de forma repetitiva el Error Event ID 153 (“The I/O operation at logical block address … was retried”), solemos enfrentarnos a un fallo en la capa de almacenamiento que pone en riesgo la disponibilidad del servicio. En esta guía aprenderás a identificar si el origen es hardware, cuándo conviene reemplazar componentes —o incluso el servidor completo— y qué acciones correctivas aplicar para devolver la estabilidad al sistema.
Resumen del error
Event ID 153 aparece en el Visor de eventos (System ➜ Disk) cuando Windows necesita reintentar una operación de lectura/escritura porque la respuesta inicial del dispositivo fue insatisfactoria o demasiado lenta. Aun cuando el sistema logra finalmente acceder al bloque lógico, la reiteración implica una degradación del rendimiento y una alerta de fiabilidad del medio físico o de la ruta de datos.
Síntomas clave
- Congelación parcial o total de servicios —especialmente aquellos con alto uso de disco, como SQL Server o Hyper‑V.
- Spikes anómalos de latencia en métricas de I/O (PerfMon: Avg. Disk sec/Read & Write).
- Mensajes concomitantes en el visor: Event ID 7, 51, 129, 157 o 11.
- Reinicios automáticos tras watchdog o BSOD con
CRITICALPROCESSDIED
oUNEXPECTEDSTOREEXCEPTION
. - Tiempo de arranque creciente y fallos en procesos de backup o VSS.
Causas frecuentes
Componente | Ejemplos de fallo | Indicador típico |
---|---|---|
Discos físicos (SAS, SATA, NVMe) | Sectores reasignados, errores SMART 5, 187, 197. | Light amber en la bahía; Event ID 7, 157. |
Cableado / backplane | Conectores flojos, polvo, vicios de masa. | Event ID 153 aleatorio entre distintas LUN. |
Controladora RAID / HBA | Firmware obsoleto, caché inconsistente, batería BBU agotada. | Event ID 129 “Reset to device, \Device\RaidPortX”. |
Drivers de almacenamiento | Compatibilidad incompleta con Windows Server 2022. | Error tras actualización mayor del SO. |
Plano de energía | UPS sin calibrar, picos de tensión. | Co‑ocurrencia con Event ID 41 (Kernel‑Power). |
Guía de diagnóstico
Pruebas de hardware
- Ejecuta el diagnóstico offline del fabricante (Lenovo DST, Dell ePSA, HPE Insight Diagnostics). Prioriza pruebas extensivas de superficie.
- Revisa los valores SMART con
Get-PhysicalDisk | Get-StorageReliabilityCounter
. Sectores pendientes > 0 son señal de reemplazo inminente. - Intercambia el disco sospechoso a otro slot: si el error se mueve con el disco, confirma defecto físico. Si permanece en la bahía, inspecciona backplane o cables mini‑SAS/Oculink.
Actualización de firmware y controladores
- Registra la versión de BIOS, iDRAC/iLO/iRMC y firmware RAID / HBA.
- Descarga el service pack más reciente certificado para Windows Server 2022.
- Programa una ventana de mantenimiento; ejecuta la actualización siguiendo la matriz de interoperabilidad (comienza por BIOS ➡ controladora ➡ discos ➡ backplane).
- Aplica el último driver firmado WHQL; reinicia y monitorea.
Validación del sistema operativo
- Corre el Verificador de controladores (
verifier.exe /standard /all
) para descartar controladores defectuosos. - Revisa
chkdsk /scan
en volúmenes NTFS /ReFS; si se detectan corrupciones, planificachkdsk /f /r
en modo offline. - En Hyper‑V, inspecciona el archivo
.vmrs
de máquinas virtuales para evitar que la actividad de punto de control o snapshots exacerbe la latencia.
Monitoreo en tiempo real
Para discriminar picos de latencia, crea un contador de rendimiento personalizado que recoja cada 15 segundos:
\LogicalDisk(*)\Avg. Disk sec/Read
\LogicalDisk(*)\Avg. Disk sec/Write
\PhysicalDisk(*)\Split IO/Sec
\Processor(_Total)\% Interrupt Time
Valores sostenidos > 0,02 s sugieren estrangulamiento en la ruta de I/O.
Reason & Solution PLZ
Si las pruebas físicas confirman sectores reasignados o errores persistentes, el motivo (reason) es un fallo hardware; la solución (solution) es sustituir el componente defectuoso:
- Disco individual en RAID 1/5/6 Retira la unidad, inserta repuesto de igual capacidad o superior, arranca la reconstrucción y verifica integridad con
Consistency Check
. - Controladora RAID Respaldar la tabla de array, reemplazar la controladora, restaurar configuración, validar con
omreport storage vdisk
o equivalente. - Backplane o cable SAS Sustituir el backplane; aplica limpieza antiestática y amarra cableado correctamente.
- Firmware/driver desfasado Actualiza y prueba con
StorPort.sys
o driver OEM actualizado; reinicia para liberar IRQs. - Fallo de energía Reemplaza UPS o calibra batería; activa Write‑Cache Backup Power Mode.
Cuándo reemplazar el servidor completo
- Persistencia del Event ID 153 tras sustituir dos o más discos y la controladora.
- Plataforma fuera de garantía (EoS/EoL) o con microcortes eléctricos recurrentes.
- Coste de parada superior al ROI de migrar a hardware fresco con NVMe Gen4 o cabina externa.
- Necesidad de aprovechar nuevas funciones (Storage Spaces Direct, SMB over QUIC) incompatibles con la generación actual.
Buenas prácticas preventivas
Implementa un plan de mantenimiento continuo que reduzca la recurrencia de este evento:
- Programa scrubs de consistencia (RAID patrol read o
chkdsk /scan
semanal). - Automatiza alertas de SMART y temperatura (umbral 50 °C en discos SAS).
- Documenta y estandariza versiones de firmware en todos los nodos.
- Activa políticas rígidas de write‑back cache solo con BBU en buen estado.
- Mantén inventario de repuestos críticos (uno por cada tipo de disco y una controladora de reserva).
Checklist rápida para el administrador
- ¿Existe backup íntegro y probado?
- ¿Se han actualizado BIOS + firmware + drivers?
- ¿Los tests SMART y de superficie han fallado?
- ¿Hay otros eventos de disco correlacionados?
- ¿La aplicación de negocio acusa latencia de I/O?
- ¿Se dispone de piezas de recambio o es más rentable reemplazar el servidor?
Preguntas frecuentes
¿Este error puede ser solo software?
Poco probable. Si bien un driver defectuoso puede detonarlo, la mayoría de ocurrencias derivan de hardware inestable o mal configurado.
¿chkdsk elimina el Event ID 153?
Solo si la causa es corrupción lógica menor. Si existen sectores físicos defectuosos, volverá a aparecer.
¿Es seguro ignorar el evento si el servidor sigue funcionando?
No. El reintento implica que los tiempos de acceso ya se están deteriorando; postergar la reparación puede derivar en pérdida de datos.
Scripts útiles
PowerShell: captura rápida de discos con sectores reasignados
$BadDisks = Get-PhysicalDisk | Where-Object {($.MediaType -ne 'Unspecified') -and ($.HealthStatus -ne 'Healthy' -or $_.OperationalStatus -ne 'OK')}
$BadDisks | Select FriendlyName,SerialNumber,HealthStatus,OperationalStatus | Format-Table -Auto
CLI iDRAC (Dell) para ver estado de batería BBU
racadm storage get controllers | findstr /i "Battery State"
Conclusión
Event ID 153 es una señal temprana —y rara vez inocua— de que la ruta de almacenamiento está fallando. Un diagnóstico metódico que combine health checks de hardware, actualización de firmware y verificación de cableado suele revelar la causa raíz. Si los errores persisten tras reemplazar discos o controladoras, la inversión en un servidor nuevo suele ser la solución más rentable y segura para la continuidad operativa.