Entre finales de junio y principios de julio de 2024, numerosos administradores y creadores detectaron que Microsoft Sway tardaba en abrir, no mostraba el contenido incrustado o bloqueaba la publicación, afectando boletines y páginas corporativas.
Descripción detallada del problema
El contratiempo se manifestó de manera repentina en inquilinos de diferentes regiones y con perfiles de suscripción variopintos (Microsoft 365 Enterprise, Business Standard, Educación), por lo que los usuarios supusieron inicialmente fallos locales. Sin embargo, el patrón se repitió:
- Lentitud extrema o bucle de carga: la pantalla de inicio del editor permanecía con la animación giratoria durante minutos sin cargar el lienzo.
- “Embed Preview” perpetuo: al insertar un Sway en un sitio externo con
<iframe>
, el contenedor mostraba únicamente la cadena “Embed Preview” y nada más. - Enlaces públicos inaccesibles: URLs del tipo
https://sway.office.com/{id}
devolvían una página en blanco o cargaban parcialmente hasta detenerse. - Impacto transversal: presentaciones internas, newsletters, micrositios de eventos y material de onboarding quedaron bloqueados, frenando la comunicación con empleados, clientes o estudiantes.
Ámbito y alcance
Aunque el fallo no afectó al 100 % de los inquilinos, la distribución geográfica fue lo bastante amplia como para considerarse un incidente generalizado. Se observaron las siguientes constantes:
- Se reprodujo en Windows 10/11, macOS y Chromebook.
- Navegadores basados en Chromium (Edge, Chrome, Opera, Brave) resultaron más afectados que Firefox.
- Las versiones móviles de iOS y Android mostraron síntomas menores, pero seguían experimentando retrasos significativos al reproducir Sway de más de 30 tarjetas.
Incidentes oficiales en el Service Health Dashboard (SHD)
Cuando los equipos de TI consultaron el Service Health Dashboard, descubrieron dos incidentes etiquetados como Service degradation en la fila de Sway:
Id. de incidente | Inicio (CST) | Estado informado | Observaciones |
---|---|---|---|
SW806219 | 28 jun 2024 19:53 | Resuelto* | Lentitud e intermitencias al cargar Sway |
SW807143 | 1 jul 2024 16:03 | Resuelto (2 jul, 00:25 GMT+8)* | Mismo síntoma: carga lenta/fallida |
*Microsoft marcó ambos incidentes como resueltos, pero muchos clientes continuaron reportando errores durante al menos 36 horas adicionales, lo que apunta a recuperaciones parciales por región o a un evento secundario no registrado.
Causa raíz (Root Cause Analysis)
A la fecha de cierre de este artículo, Microsoft no publicó una RCA completa. Sin embargo, la información recopilada de tickets de soporte y foros técnicos apunta a una combinación de:
- Actualización de backend: Cambios simultáneos en componentes de caché y balanceadores de carga dentro de la arquitectura multirregional de Sway.
- Degradación de un microservicio: Se detectaron respuestas HTTP 502/504 intermitentes desde un servicio de metadatos que calcula las miniaturas y la estructura JSON que Sway envía al cliente.
- Timeouts de red en CDN: La CDN que entrega los paquetes WebAssembly de la interfaz nueva de Sway devolvía timeouts para determinadas subredes, lo que explica por qué algunos usuarios móviles (rutas distintas) se vieron menos afectados.
Cómo verificar si tu tenant sigue afectado
- Inicia sesión como administrador global en el Microsoft 365 Admin Center.
- Navega a Health > Service Health y filtra por Sway.
- Comprueba el estado. Si aparece “Service incident” o “Advisory”, expande la tarjeta para leer la última actualización.
- Si el SHD muestra “Service healthy” pero tus usuarios continúan con problemas, documenta las evidencias (capturas, HAR,
Ctrl + Shift + I
> Network) y procede al escalado.
Proceso de escalado a Soporte de Microsoft 365
- Desde el Admin Center, ve a Support > New service request.
- Describe el síntoma (p. ej., “Sway loads indefinitely or displays only ‘Embed Preview’”).
- Adjunta registros de la consola del navegador, HAR y la URL del Sway afectado.
- Solicita un “trace” a nivel de tenant; así el equipo de back‑end correlacionará peticiones fallidas con los nodos que aún presentan latencia.
- Registra el número de incidente interno para su seguimiento y actualiza a tus partes interesadas.
Acciones de mitigación inmediata
Objetivo | Acción recomendada |
---|---|
Restaurar la lectura rápida | Exporta el Sway a PDF (Share > Export > PDF) y distribúyelo por correo o Teams. |
Minimizar el tiempo de inactividad | Duplica el Sway (… > Duplicate) para generar un nuevo ID y actualiza tu iframe o enlace público. |
Evitar embeds rotos | Añade debajo del <iframe> un mensaje de contingencia: “El contenido se mostrará cuando el servicio vuelva a estar disponible”. |
Reducir la frustración del usuario | Notifica por SharePoint News o Teams que existe una incidencia y ofrece la versión PDF en OneDrive. |
Contingencia de navegador | Indica a los usuarios que prueben Firefox o el modo InPrivate; este método arroja alta tasa de éxito en la mayoría de los casos. |
Medidas preventivas a futuro
Supervisión proactiva
Configura alertas automáticas en el SHD de modo que los administradores reciban un correo o una notificación push mediante la aplicación móvil de Microsoft 365 cada vez que se publique una incidencia relacionada con Sway. La latencia entre la publicación y la alerta suele ser inferior a 15 minutos.
Plan B de distribución
- Mantén versiones estacionarias de tus boletines en PDF u HTML estático dentro de una biblioteca de SharePoint.
- Crea un script de PowerShell que, al exportar un Sway, suba automáticamente la versión PDF a una carpeta “Contingencia”.
- Incluye en tu plantilla de comunicación un bloque “Si no puedes visualizar el contenido, descárgalo aquí”.
Diversificación de canales
El modelo de “Single Source of Truth” (solo Sway) es eficiente, pero conlleva riesgos de punto único de fallo. Publicar resúmenes en SharePoint, Teams o incluso Yammer refuerza la resiliencia de la comunicación.
Pruebas QA programadas
Agenda pruebas semanales de los Sway incrustados en los principales navegadores. Incluye métricas de:
- Tiempo hasta el primer byte (TTFB).
- Porcentaje de errores 4xx/5xx en la consola.
- Carga completa (DOMContentLoaded).
Si alguno de estos indicadores excede los objetivos acordados (SLA internos), activa tu plan de contingencia antes del lanzamiento oficial de la newsletter.
Buenas prácticas para optimizar el rendimiento de Sway
- Agrupa imágenes en galerías para reducir llamadas individuales a la CDN.
- Evita vídeos de gran formato; en su lugar, incrusta versiones comprimidas o enlaza a Stream.
- Limita el número de Stack y Group cuando la audiencia utilice dispositivos con hardware modesto.
- Deshabilita la opción de co-autoría cuando no sea imprescindible para prevenir conflictos de guardado.
- Implementa un ciclo de vida del contenido: archiva Sway antiguos y exporta a PDF para liberarlos de la cuota de tu tenant.
Preguntas frecuentes (FAQ)
¿Por qué Firefox funciona mejor?
Firefox emplea un motor de renderizado distinto (Gecko) que, en esta incidencia, negociaba mejor el “handshake” con el microservicio afectado. Además, su política de pipelining y la manera en que maneja WebAssembly mitigaron parte de los timeouts.
¿Qué diferencia hay entre “Advisory” e “Incident” en el SHD?
Un Advisory indica que el servicio funciona pero con alguna degradación leve o es posible que un subconjunto de usuarios se vea impactado. Un Incident confirma un fallo que impide el uso normal del servicio para una porción notable de clientes.
¿Puedo automatizar la exportación de Sway a PDF?
Sí. Existen scripts de Power Automate que disparan la exportación cuando se publica un Sway nuevo. Esto requiere permisos de Application en Microsoft Graph y la acción Convert file.
Lecciones aprendidas
La incidencia subraya la importancia de planificar la resiliencia de los canales de comunicación interna y externa. Si bien Sway se percibe como una “caja negra” gestionada íntegramente por Microsoft, los equipos de TI siguen siendo responsables de la experiencia usuario final. Una estrategia de contingencia bien documentada permite:
- Mantener la confianza del público objetivo.
- Reducir pérdidas de productividad y reputación.
- Evitar la saturación del help‑desk con llamadas repetitivas.
Resumen ejecutivo
Entre el 28 de junio y el 2 de julio de 2024 Microsoft Sway sufrió una degradación global reconocida en los incidentes SW806219 y SW807143. Aunque la compañía marcó oficialmente ambas alertas como resueltas, en distintos tenants perduraron problemas de latencia y fallos de carga. Las organizaciones afectadas deben revisar el Service Health Dashboard, escalar a soporte en caso necesario y aplicar mitigaciones como exportar a PDF, duplicar Sway o recomendar Firefox como alternativa temporal. La implementación de alertas proactivas, planes B de distribución y pruebas de rendimiento regulares son clave para minimizar el impacto de futuros incidentes.