El caso de los contenedores en la industria: por que Docker es la base adecuada para el software industrial moderno

Un documento de posición que sostiene que la contenedorización a nivel de sistema operativo, de la cual Docker es el ejemplo canónico, no es simplemente una opción de herramienta útil sino una tecnología fundamental para la convergencia de la tecnología operativa y de la información. El argumento aborda directamente las objeciones más fuertes y concluye que son manejables en lugar de descalificar.

Preámbulo

Un escepticismo persistente acompaña la introducción de contenedores en entornos industriales. Las objeciones son familiares: los sistemas industriales tienen ciclos de vida medidos en décadas, no ciclos de implementación medidos en minutos; las demandas de rendimiento en tiempo real no pueden tolerar la imprevisibilidad de un tiempo de ejecución de propósito general; las implicaciones de seguridad de ejecutar un kernel de Linux expuesto a docenas de contenedores no se comprenden suficientemente; La madurez operativa de la fuerza laboral de tecnología de operaciones (OT) no coincide con la complejidad operativa de las herramientas modernas nativas de la nube.

Cada una de estas objeciones tiene un núcleo de verdad. Ninguno de ellos, sostiene este artículo, resiste un examen serio.

La tesis es directa: la contenedorización a nivel de sistema operativo (de la cual Docker es el ejemplo canónico) es el sustrato fundamental adecuado para el software industrial. Su adopción no es una cuestión de moda sino de necesidad arquitectónica. Las alternativas son peores. Las objeciones, si bien son reales, identifican problemas de ingeniería con soluciones conocidas en lugar de incompatibilidades fundamentales.

Este artículo se desarrolla en ocho secciones. El primero establece qué técnicamente es Docker, distinguiendo la tecnología de la superficie de marketing. El segundo sitúa los contenedores dentro de su linaje histórico para disipar la impresión de que se trata de una tecnología novedosa y no probada. El tercero caracteriza el problema de implementación de software industrial para el que los contenedores son particularmente adecuados. El cuarto avanza el caso afirmativo. El quinto aborda las principales objeciones. El sexto describe los patrones arquitectónicos que han surgido en los despliegues industriales de producción. El séptimo examina los problemas abiertos y las condiciones para la adopción responsable. El octavo reafirma y defiende la afirmación central.

El público objetivo es el arquitecto o el líder en ingeniería que está sopesando si comprometer una línea de productos industriales con una infraestructura en contenedores. El argumento pretende ser útil precisamente porque no halaga la tecnología.

Qué es realmente Docker

Un argumento limpio requiere un objeto limpio. Docker es un término muy sobrecargado, y la confusión sustancial en las discusiones industriales sobre contenedores se debe directamente a la imprecisión sobre lo que se está discutiendo.

En sentido estricto, Docker se refiere a una implementación particular de virtualización a nivel de sistema operativo en Linux, lanzada originalmente en 2013 por dotCloud (más tarde Docker, Inc.) [1]. En la práctica actual, el término abarca varios componentes distinguibles: un tiempo de ejecución de contenedor (originalmente libcontainer, más tarde containerd y runc), un formato de imagen y protocolo de registro, una herramienta de línea de comandos y una arquitectura de demonio.

Las primitivas técnicas subyacentes son características del kernel, no invenciones específicas de Docker:

Los espacios de nombres de Linux [2] proporcionan aislamiento a nivel de proceso de los recursos del sistema. Los siete tipos de espacios de nombres (PID, red, montaje, UTS, IPC, usuario y cgroup) permiten colectivamente que un grupo de procesos opere dentro de una vista aislada de identificadores de procesos, interfaces de red, montajes de sistemas de archivos, nombre de host y dominio, canales de comunicación entre procesos, identificadores de usuarios y grupos, y jerarquías de grupos de control. Un contenedor es, a nivel del núcleo, un árbol de procesos cuyo estado visible del sistema está restringido por estos espacios de nombres.

Grupos de control (cgroups) [3], desarrollados originalmente en Google y fusionados con el kernel de Linux en 2007, proporcionan contabilidad y limitación de recursos. Los recursos compartidos de CPU, los límites de memoria, el ancho de banda de E/S y el acceso a dispositivos se pueden limitar por grupo de procesos. cgroups v2, la jerarquía unificada introducida en el kernel 4.5 (2016) y establecida por defecto en la mayoría de las distribuciones para 2021, mejoró materialmente el modelo de control de recursos.

OverlayFS [4] y sistemas de archivos de unión similares habilitan el modelo de imagen en capas que distingue a Docker de los sistemas de contenedores anteriores. Una imagen es una pila de capas de sólo lectura; un contenedor en ejecución agrega una capa grabable en la parte superior. Se comparten capas idénticas entre contenedores y hosts, lo que genera una eficiencia sustancial de almacenamiento y red.

El almacenamiento direccionable por contenido de capas de imágenes, identificadas mediante hash criptográfico, permite una garantía que no tiene equivalente en los modelos de implementación tradicionales: la reproducibilidad byte por byte del artefacto implementado. La imagen identificada por sha256:abc... en la estación de trabajo de un desarrollador es idéntica en bits a la imagen identificada por el mismo hash en una puerta de enlace de producción, independientemente de cuándo o dónde se extraiga.

Estas primitivas no son inventos de Docker. Son características del kernel de Linux que Docker ensambló en un producto. Su existencia y estabilidad son anteriores a la adopción popular de los contenedores, y ahora se rigen por una especificación abierta.

Desde 2015, el ecosistema de contenedores se ha estandarizado bajo la Open Container Initiative (OCI) [5], produciendo tres especificaciones: la especificación de tiempo de ejecución, la especificación de imagen y la especificación de distribución. La consecuencia práctica es que Docker la empresa es ahora un implementador entre varios de un estándar abierto, y los tiempos de ejecución de contenedores utilizados en producción (contenedores, CRI-O, Podman) interoperan a través de estas especificaciones. "Usar Docker" en 2025 es utilizar contenedores OCI; la marca y la tecnología se han desacoplado.

Esta desambiguación es importante porque las objeciones a Docker con frecuencia se dirigen a la empresa, a la arquitectura histórica del demonio o a las herramientas periféricas, en lugar de a los primitivos técnicos subyacentes, que son la sustancia duradera del argumento.

El linaje histórico de la contenedorización

Los contenedores no son nuevos. La narrativa popular que sitúa su origen en el lanzamiento de Docker en 2013 oscurece un linaje de cuatro décadas que afecta materialmente cómo se debe evaluar la tecnología para uso industrial. La tecnología madura con una larga trayectoria merece un estándar probatorio diferente al de la tecnología emergente, y los contenedores son inequívocamente los primeros.

El linaje comienza con chroot, introducido en la versión 7 de Unix en 1979 [6]. chroot permitió que un proceso se limitara a un subárbol del sistema de archivos, la primera primitiva de aislamiento sistemático a nivel de sistema de archivos de uso generalizado. Sus limitaciones de seguridad se reconocieron tempranamente (chroot nunca fue diseñado como un límite de seguridad), pero estableció la base conceptual para la virtualización del sistema de archivos.

FreeBSD Jails [7], introducido en 2000 por Poul-Henning Kamp y Robert Watson a petición de un proveedor de alojamiento, amplió "chroot" con aislamiento de proceso y red, produciendo lo que era reconocible como un contenedor en el sentido moderno. Las cárceles fueron diseñadas desde el principio como barrera de seguridad y se han utilizado en producción durante casi un cuarto de siglo. Su adopción en dispositivos de red (pfSense, opnSense, NetApp) proporciona un largo historial de contenedores en funciones de misión crítica.

Solaris Zones [8], lanzado en 2004, proporcionó contenedores de calidad comercial con sólidas garantías de aislamiento, se integró con Solaris Service Management Facility y se utilizó en la producción empresarial desde su lanzamiento. La inversión en ingeniería de Sun Microsystems en Zones fue sustancial y la tecnología se implementó en entornos (conmutadores de telecomunicaciones, sistemas de transacciones financieras) al menos tan críticos como las implementaciones industriales típicas.

Los contenedores Linux (LXC) [9], que surgieron aproximadamente a partir de 2008, trajeron la funcionalidad de contenedor a Linux a través de los espacios de nombres y las primitivas de cgroups discutidas anteriormente. LXC fue el antecedente técnico directo de Docker; Las primeras versiones de Docker eran, de hecho, una capa de experiencia de desarrollador sobre LXC.

La contribución de Docker en 2013 no fue una novedad técnica en el sentido del núcleo. Los espacios de nombres existían desde hacía años; cgroups se fusionó en 2007. La contribución de Docker fue el formato de imagen, el protocolo de registro y una experiencia de desarrollador que hizo que las primitivas del kernel existentes fueran accesibles para los desarrolladores de aplicaciones comunes. La tecnología tenía treinta y cinco años cuando Docker la hizo utilizable.

El sistema Borg de Google [10], el precursor de Kubernetes, había estado ejecutando toda la flota de producción de Google en contenedores desde aproximadamente 2003, una década antes de que existiera Docker. Cuando Docker alcanzó la versión 1.0 en 2014, Google ejecutaba miles de millones de contenedores por semana. El argumento de que la tecnología de contenedores no está probada en la producción a escala choca con este registro empírico.

Para la adopción industrial, la cuestión relevante no es si la tecnología está madura (evidentemente lo está) sino si los patrones de implementación específicos de la industria están maduros. Esa cuestión se aborda en la Sección 6.

El problema de la implementación del software industrial

Para argumentar afirmativamente a favor de los contenedores en la industria, se debe caracterizar con precisión el problema que resuelven. Históricamente, la implementación de software industrial se ha visto afectada por un conjunto de patologías que no son incidentales al contexto industrial sino que fluyen directamente de sus características estructurales.

Los ciclos de vida prolongados de los equipos producen una deriva de dependencia. Un controlador industrial implementado en 2010 aún puede estar operativo en 2030, una vida útil de dos décadas. Sin embargo, el entorno de software de 2010 no es el entorno de software de 2030. Las versiones de la biblioteca, las cadenas de herramientas del compilador, los intérpretes de tiempo de ejecución y los núcleos del sistema operativo evolucionan. La respuesta convencional (congelar toda la pila en el momento de la implementación) produce un artefacto que no se puede mantener: el controlador puede ejecutar su software original, pero no se puede actualizar, parchar o modificar de forma segura sin riesgo de romper las dependencias de manera impredecible. Este es el problema de la deriva de dependencia.

Los objetivos de implementación heterogéneos multiplican la complejidad de la integración. Es posible que se requiera que una pieza de software industrial se ejecute en media docena de plataformas de destino: diferentes arquitecturas de SoC, diferentes distribuciones de Linux, diferentes versiones de kernel, diferentes versiones de glibc. La combinatoria de probar cada cambio de software en cada plataforma de destino es intratable sin un fuerte aislamiento entre la aplicación y su entorno host. Sin aislamiento, las pruebas de integración deben ser exhaustivas; con aislamiento, puede ser selectivo.

Históricamente, los mecanismos de actualización han sido frágiles. La actualización industrial convencional (una imagen de firmware trasladada a un almacenamiento flash, cuya reversión generalmente requiere acceso físico) no admite las actualizaciones granulares, frecuentes y observables que exigen las posturas de seguridad modernas. Ahora aparecen vulnerabilidades críticas que requieren parches en escalas de tiempo de días a semanas; Los ciclos de actualización de firmware industrial medidos en meses o años son cada vez más inadecuados para los modelos de amenazas.

La reproducibilidad es operativamente esencial pero técnicamente difícil de alcanzar. Cuando falla un sistema industrial, el proceso de diagnóstico requiere reproducir la falla en un entorno controlado. Si el entorno de software del sistema de producción no se puede reproducir exactamente (porque fue creado a partir de una combinación particular de versiones de biblioteca, archivos de configuración y estado de ejecución que nadie documentó completamente), el diagnóstico se convierte en arqueología. Esta es la crisis de reproducibilidad aplicada al software industrial, y le ha costado a la industria un alto costo en tiempo de respuesta a incidentes.

El límite entre la aplicación y el sistema operativo se ha erosionado. Las aplicaciones industriales modernas dependen de una porción sustancial del entorno operativo: bibliotecas específicas, módulos de kernel específicos, unidades systemd específicas, diseños de sistemas de archivos específicos. El modelo histórico (“implementar la aplicación, el sistema operativo es problema de otra persona”) no coincide con la realidad operativa, donde las aplicaciones y sus dependencias están entrelazadas y deben implementarse juntas.

Cada una de estas patologías es, en principio, abordable únicamente mediante una cuidadosa disciplina de ingeniería. En la práctica, el registro empírico del software industrial muestra que la disciplina de ingeniería es insuficiente por sí sola, porque las patologías son producidas estructuralmente por la brecha entre la aplicación y su entorno. Los contenedores cierran esa brecha al implementar la aplicación junto con sus dependencias como un único artefacto inmutable. Ésta no es una preferencia estilística; es un remedio estructural para un problema estructural.

El caso afirmativo

Una vez caracterizado el problema, se puede argumentar afirmativamente a favor de los contenedores en el software industrial por seis motivos.

Container suitability for industrial software criteria

bar chart

Figure 1. Container suitability for industrial software criteria. Bars show a normalized relative score on a 0-100 scale; whiskers indicate uncertainty intervals. n = 5 architecture criteria; no inferential test is applied because the figure is a comparative design model, not an experimental sample.

4.1 Reproducibilidad criptográfica

La imagen identificada por un resumen SHA-256 específico es idéntica en bits en cada host que la extrae. Esta es una garantía más sólida que la que ofrece cualquier mecanismo de implementación convencional. Cuando ocurre un incidente en producción, se puede reproducir el entorno de software exacto en el que ocurrió el incidente (en una estación de trabajo de desarrollador, en un entorno de prueba, en una auditoría regulatoria) con certeza matemática.

Es difícil exagerar el valor diagnóstico de esta garantía. El costo de los diagnósticos "no se pudo reproducir" en la respuesta a incidentes industriales es, según la experiencia de cada profesional, sustancial. La reproducibilidad criptográfica elimina este modo de falla para la capa de software, dejando solo los factores ambientales genuinamente difíciles de reproducir (ruido del sensor, interferencia electromagnética, desgaste mecánico) como las fuentes restantes de irreproducibilidad.

La misma garantía respalda el cumplimiento y la auditoría. Cuando una implementación industrial debe demostrar, para fines regulatorios, que el software que se ejecuta en el campo es exactamente el software que fue validado y aprobado, el resumen de imágenes proporciona esa demostración en una forma que resiste criptográficamente la manipulación.

4.2 Despliegue atómico y reversión

Las actualizaciones industriales convencionales tienen la propiedad de que no pueden revertirse fácilmente. Una actualización de firmware que resulta problemática en producción requiere acceso físico para volver a flashear o un mecanismo de actualización complejo que incluye particiones A/B y soporte explícito de reversión, e incluso estos mecanismos suelen ser de todo o nada a nivel de firmware.

La implementación de contenedores es atómica en la granularidad de la carga de trabajo individual. Se extrae, valida e inicia una nueva imagen de contenedor; la imagen antigua está detenida. Si la nueva imagen no supera alguna de sus comprobaciones de estado, se revierte la transición. El estado del sistema al finalizar una implementación fallida es idéntico a su estado al comienzo de la implementación.

Esta propiedad tiene importantes consecuencias operativas. Permite cadencias de actualización agresivas sin aumentos proporcionales en el riesgo operativo. Permite implementaciones canary: probar una nueva imagen en un subconjunto de la flota antes de una implementación más amplia. Permite la reversión automática en respuesta a señales de telemetría. Ninguno de estos patrones es factible con los mecanismos de actualización de firmware convencionales.

4.3 Aislamiento de dependencia

Cada contenedor lleva sus propias dependencias. Dos contenedores en el mismo host pueden depender de versiones incompatibles de la misma biblioteca y ambos funcionarán correctamente. El sistema operativo anfitrión sólo necesita proporcionar el kernel; las dependencias del espacio de usuario están encapsuladas en la imagen.

La importancia industrial de esta propiedad es que una puerta de enlace industrial puede albergar múltiples aplicaciones (tal vez desarrolladas por diferentes proveedores, tal vez implementadas en diferentes momentos, tal vez dependiendo de diferentes versiones de bibliotecas comunes) sin la complejidad de integración que históricamente acompañaba a dicha co-residencia. La implementación de una nueva aplicación no corre el riesgo de dañar las aplicaciones existentes, porque las dependencias no interactúan.

Este es el habilitador estructural del modelo de mercado de aplicaciones que se ha intentado, con éxito limitado, para los controladores industriales durante varias décadas. La distribución de aplicaciones basada en contenedores hace que el mercado sea factible porque el problema de integración (históricamente el principal obstáculo) está prácticamente disuelto.

4.4 Portabilidad de la carga de trabajo

Una imagen de contenedor que se ejecuta en el entorno local de un desarrollador se ejecuta, con alta fidelidad, en una puerta de enlace de producción. La misma imagen se ejecuta en un servidor x86 en un centro de datos o en una puerta de enlace industrial basada en ARM, dada una imagen de arquitectura múltiple. El entorno de ejecución es en gran medida invariante en todos los contextos de implementación.

Esta portabilidad tiene dos consecuencias importantes para el software industrial. Primero, elimina una clase sustancial de errores de integración: aquellos causados por diferencias entre los entornos de desarrollo y producción. En segundo lugar, hace que el límite entre la nube y el borde sea una decisión de implementación en lugar de una decisión arquitectónica. La misma carga de trabajo se puede ejecutar en cualquier ubicación y la ubicación se puede cambiar sin modificar el código. Este es el facilitador práctico del codiseño de la nube periférica [11], en el que las cargas de trabajo migran entre niveles según las necesidades operativas.

4.5 Mejoras de seguridad respecto a la implementación básica

Una idea errónea frecuente trata a los contenedores como un límite de seguridad más débil que las máquinas virtuales y concluye que los contenedores representan una regresión de seguridad. La comparación es correcta pero la conclusión es errónea, porque la comparación relevante no es contenedor versus VM sino contenedor versus no contenedor; es decir, la alternativa histórica al despliegue industrial en contenedores no es el despliegue virtualizado; es una implementación básica sin aislamiento.

En comparación con esta línea de base histórica, los contenedores son sin lugar a dudas una mejora. Proporcionan:

La publicación especial NIST 800-190 [12] proporciona una referencia autorizada para la configuración de seguridad de contenedores en entornos regulados. Los contenedores configurados correctamente, con ejecución sin raíz, eliminación de capacidades, filtrado de segundos y escaneo de imágenes, representan una postura de seguridad sustancialmente más sólida que las implementaciones industriales básicas a las que reemplazan.

La preocupación legítima (que el kernel sea una superficie de ataque mayor que un hipervisor) se aplica en circunstancias concretas y se aborda en la Sección 5.

Aislamiento de procesos a través de espacios de nombres, evitando interferencias accidentales o maliciosas entre aplicaciones co-residentes.
Límites de recursos a través de cgroups, lo que evita que una sola aplicación agote los recursos del host.
Caída de capacidad, eliminando capacidades peligrosas de Linux de los procesos del contenedor de forma predeterminada.
Sistemas de archivos raíz de solo lectura, que eliminan una clase importante de persistencia post-explotación.
Filtros Seccomp, restringiendo las llamadas al sistema disponibles para un proceso en contenedores.
Integración de AppArmor y SELinux, proporcionando controles de acceso obligatorios.

4.6 Convergencia operativa con la práctica del software moderno

El elemento final del caso afirmativo es quizás el más trascendental, aunque el más difícil de cuantificar. Los contenedores incorporan el software industrial a la misma cadena de herramientas operativas que la industria del software en general. Los canales de integración continua, las herramientas de seguridad de la cadena de suministro, las pilas de observabilidad, los sistemas de automatización de implementación, todos ellos son nativos de contenedores.

La implicación es que el desarrollo de software industrial puede contratar personal del mercado laboral de ingeniería de software más amplio, puede adoptar prácticas y herramientas validadas a escala de hiperescalador y puede integrarse con el ecosistema nativo de la nube sin una adaptación personalizada. El aislamiento histórico del desarrollo de software industrial del ecosistema de software más amplio (con la consiguiente escasez de talento, brechas de herramientas y déficits en la postura de seguridad) se disuelve con la adopción de contenedores.

Este efecto es estructural y de largo plazo. Sus consecuencias se desarrollarán durante una década o más, pero la dirección del viaje es clara: el desarrollo de software industrial se está volviendo indistinguible, en herramientas y práctica, del desarrollo de aplicaciones modernas.

Enfrentar las objeciones

Una promoción seria debe abordar las formas más fuertes de las objeciones que enfrenta, no las más débiles. Esta sección aborda las cuatro objeciones más frecuentemente planteadas contra la contenerización industrial.

5.1 La objeción al desempeño en tiempo real

Los contenedores introducen una programación no determinista y una contención de recursos que los descalifica de las cargas de trabajo industriales en tiempo real.

La objeción tiene mérito en su forma más contundente, pero la forma en que suele formularse es demasiado amplia. Las cargas de trabajo industriales en tiempo real no son monolíticas; van desde un control estricto del movimiento en tiempo real (plazos en microsegundos, el incumplimiento del plazo equivale a un incidente de seguridad) hasta un control suave del proceso en tiempo real (plazos en decenas de milisegundos, errores ocasionales tolerables) y análisis no en tiempo real (sin fecha límite).

Para cargas de trabajo difíciles en tiempo real, los contenedores son ciertamente inadecuados, pero también lo es el Linux convencional. El tiempo real estricto en Linux requiere un kernel parcheado con PREEMPT_RT [13] o equivalente, una cuidadosa afinidad de CPU, aislamiento de los núcleos en tiempo real del programador y exclusión de las cargas de trabajo que no son en tiempo real del dominio en tiempo real. Estos requisitos son independientes de la contenedorización. Un sistema Linux en tiempo real configurado correctamente puede alojar cargas de trabajo en tiempo real en contenedores con totales garantías de tiempo real, siempre que se respete la disciplina de configuración.

Las mediciones cuantitativas lo confirman. Los puntos de referencia de cargas de trabajo en contenedores en tiempo real en PREEMPT_RT Linux [14] muestran una sobrecarga de latencia en microsegundos individuales bajos en comparación con la ejecución básica, muy dentro de la tolerancia incluso de cargas de trabajo industriales exigentes. La sobrecarga proviene en gran medida de la contabilidad de cgroup, que se puede desactivar selectivamente para cgroups en tiempo real donde la latencia determinista es más importante que la contabilidad de recursos detallada.

Para cargas de trabajo suaves en tiempo real y no real, que abarcan la gran mayoría del software industrial, los contenedores introducen una sobrecarga del orden del 1 al 3 % para las cargas de trabajo vinculadas a la CPU y una sobrecarga estadísticamente insignificante para las cargas de trabajo vinculadas a E/S. Este no es un obstáculo serio.

5.2 La objeción al límite de seguridad

Las vulnerabilidades de escape de contenedores se descubren de forma rutinaria; No se puede confiar en los contenedores como límite de seguridad para cargas de trabajo industriales de alto valor.

La objeción combina dos afirmaciones distintas. La primera, que existen vulnerabilidades de escape de contenedores, es cierta. La segunda, que esto descalifica a los contenedores para uso industrial, no se sigue, porque también existen escapes de máquinas virtuales, y las implementaciones bare-metal no tienen ningún límite del que escapar. La cuestión relevante es la postura de seguridad en relación con las alternativas, no en relación con la perfección.

El registro histórico de las vulnerabilidades de escape de contenedores es informativo. Los principales CVE (runc CVE-2019-5736, Dirty Pipe CVE-2022-0847, CVE-2024-0132 en NVIDIA Container Toolkit) han sido, en cada caso, parcheados a los pocos días de su divulgación y se han propagado a través del ecosistema en cuestión de semanas. La ventana de exposición para los sistemas mantenidos adecuadamente ha sido corta.

Para cargas de trabajo que requieren aislamiento de nivel de hipervisor, los tiempos de ejecución de contenedores ligeros basados en VM (Kata Containers [15], Firecracker [16], gVisor [17]) lo proporcionan preservando la interfaz del contenedor. Estas tecnologías permiten una implementación híbrida en la que la mayoría de las cargas de trabajo se ejecutan en contenedores convencionales, mientras que las cargas de trabajo específicamente sensibles se ejecutan en microVM, todas administradas por la misma capa de orquestación.

El grave desafío de seguridad para la contenedorización industrial no es la superficie de ataque del kernel; es la cadena de suministro. Una imagen de contenedor creada a partir de imágenes base que no son de confianza, de paquetes extraídos de repositorios comprometidos, de procesos de compilación sin procedencia, es un vector de compromiso que el aislamiento del contenedor no solucionará. La respuesta a este desafío, abordado en la Sección 6, es la adopción de marcos de seguridad de la cadena de suministro como SLSA [18] y la distribución de imágenes firmadas a través de Sigstore [19].

5.3 La objeción de la carga de trabajo con estado

Los contenedores fueron diseñados para cargas de trabajo sin estado. Las aplicaciones industriales tienen mucho estado y forzarlas a utilizar un modelo sin estado produce malas arquitecturas.

La premisa es parcialmente correcta (las primeras orientaciones sobre contenedores enfatizaban la apatridia), pero la conclusión no lo es. El modelo de contenedor se adapta a cargas de trabajo con estado mediante montajes de volúmenes, volúmenes persistentes en entornos orquestados y primitivas de gestión de datos explícitas. La disciplina requerida es hacer que el estado sea direccionable externamente y administrado explícitamente, en lugar de implícito en la memoria de ejecución de la aplicación.

Esta disciplina es, de hecho, un beneficio para las aplicaciones industriales, no un coste. Una aplicación industrial con estado cuyo estado es implícito, no documentado y enredado con la memoria de ejecución es precisamente el tipo de aplicación que es imposible de depurar, imposible de migrar e imposible de recuperar después de una falla. El proceso de contenerización fuerza la externalización y la gestión explícita del estado, produciendo aplicaciones que sean más resilientes, no menos.

Para cargas de trabajo industriales genuinamente con estado (bases de datos de historiadores, datos de calibración, almacenes de configuración), el ecosistema de contenedores proporciona herramientas maduras: volúmenes persistentes con respaldo de sistema de archivos adecuado, patrones de operador para administrar los ciclos de vida de las bases de datos y primitivas de respaldo integradas con la capa de almacenamiento.

5.4 La objeción de la complejidad operativa

La orquestación de contenedores introduce una complejidad operativa que los equipos de OT no están preparados para gestionar. La alternativa (actualizaciones simples de firmware) es operativamente más simple, aunque técnicamente inferior.

La objeción tiene un apoyo empírico sustancial. Kubernetes se considera ampliamente complejo desde el punto de vista operativo y las habilidades necesarias para operarlo no suelen residir en los equipos de OT.

Sin embargo, dos observaciones matizan la objeción. En primer lugar, la implementación de contenedores no requiere Kubernetes. Para implementaciones industriales de un solo nodo, que describen la gran mayoría de escenarios de gateway de borde, Docker Compose, Podman o unidades de contenedores administradas por systemd brindan una superficie operativa comparable en complejidad a la administración de servicios convencional. La pila de orquestación completa solo es necesaria para implementaciones a escala de flota y, a esa escala, la complejidad de la orquestación se ve compensada por los beneficios operativos.

En segundo lugar, la orquestación ligera (K3s [20], KubeEdge [21], MicroK8s) ha reducido materialmente la complejidad operativa para las implementaciones de borde a escala de flota. El perfil de complejidad histórico de Kubernetes reflejó sus orígenes en cargas de trabajo hiperescaladoras; las variantes livianas están diseñadas explícitamente para las realidades operativas de la implementación de borde.

La respuesta más profunda a la objeción de la complejidad operativa es que la complejidad operativa del software industrial no en contenedores se ha subestimado durante décadas. Las dependencias indocumentadas, los incidentes irreproducibles, los procesos de despliegue que existen sólo como conocimiento tribal en particular en las cabezas de los ingenieros: son formas de complejidad operativa que no se miden porque no son visibles. La complejidad visible de la orquestación de contenedores reemplaza la complejidad invisible que siempre estuvo presente. Que se trate de un aumento o una disminución neta de la carga operativa depende del despliegue específico, pero la suposición de que la línea de base no en contenedores es operativamente simple no sobrevive al escrutinio.

Patrones arquitectónicos para el despliegue industrial

La transición de la defensa teórica a la práctica implementable depende de la madurez de los patrones arquitectónicos. Los patrones que han surgido en los despliegues industriales de producción merecen una descripción explícita.

6.1 Implementación de puerta de enlace de un solo nodo

El patrón más común es la puerta de enlace de un solo nodo: una puerta de enlace industrial que ejecuta una pequeña cantidad de aplicaciones en contenedores, con Docker Compose o unidades de contenedores administradas por systemd que proporcionan la superficie de orquestación. Las actualizaciones se obtienen de un registro central, opcionalmente en un cronograma definido por un ciclo de reconciliación similar al de Watchtower. El estado persiste en volúmenes locales con respaldo en la infraestructura central.

La fortaleza de este patrón es la simplicidad operativa. Su debilidad es que la gestión a escala de flotas no cuenta con soporte directo: cada puerta de enlace se gestiona de forma independiente. Para implementaciones de decenas a cientos de puertas de enlace, esto es aceptable. Para flotas más grandes, el siguiente patrón es más apropiado.

6.2 Orquestación a escala de flota

Para implementaciones a escala de flota, las distribuciones ligeras de Kubernetes (K3, KubeEdge) proporcionan orquestación en toda la flota. Cada puerta de enlace se convierte en un nodo, ya sea como un clúster de un solo nodo o como un nodo trabajador en un clúster más grande, y las cargas de trabajo se programan, actualizan y observan mediante herramientas estándar de Kubernetes.

La fortaleza del patrón es la gestión a escala de flotas con un ecosistema maduro. Su debilidad es la complejidad operativa analizada en la Sección 5.4, que justifica el patrón sólo a una escala suficiente.

6.3 GitOps para configuración perimetral

En cualquiera de los patrones, la configuración de las puertas de enlace (qué contenedores se ejecutan, qué imágenes se implementan, qué recursos se asignan) se describe de forma declarativa en un repositorio controlado por versiones. Un controlador de conciliación (Flux, Argo CD, Fleet) que se ejecuta en la puerta de enlace, o en un controlador en la nube, observa la brecha entre el estado observado y el deseado y aplica los cambios necesarios para cerrarla.

La fortaleza de este patrón es la auditabilidad y la atomicidad a nivel de flota. El historial completo de la configuración de la flota se captura en Git. La reversión es una operación de Git. El patrón se ha tomado prestado casi sin modificaciones de las operaciones nativas de la nube y se traslada bien al borde.

6.4 Seguridad de la cadena de suministro

Para implementaciones industriales, la seguridad de la cadena de suministro de las imágenes de contenedores es operativamente esencial. El patrón maduro incluye:

Esto no es opcional para implementaciones industriales. Los ataques a la cadena de suministro que se han producido contra los ecosistemas de paquetes de software durante los últimos cinco años (SolarWinds, los diversos compromisos de npm y PyPI) establecen que la amenaza es real y las defensas son necesarias.

Creación de imágenes en una infraestructura de CI confiable con procedencia documentada (marco SLSA [18])
Firma de imágenes con Sigstore [19] o equivalente
Atestación de procedencia siguiendo la especificación integral [22]
Generación de lista de materiales de software siguiendo SPDX [23] o CycloneDX
Escaneo continuo de vulnerabilidades con Trivy, Grype o equivalentes comerciales
Control de admisión a nivel de puerta de enlace que rechaza imágenes vulnerables o sin firmar

6.5 Patrones de acceso al hardware

Las cargas de trabajo industriales frecuentemente requieren acceso a hardware físico: puertos serie, pines GPIO, buses CAN, buses de campo industriales, aceleradores GPU. El modelo de contenedor se adapta a esto a través de grupos de dispositivos y montajes de dispositivos explícitos.

El patrón disciplinado es exponer dispositivos específicos a contenedores específicos en lugar de ejecutar contenedores privilegiados con acceso completo al host. El controlador cgroup del dispositivo del kernel permite un control de acceso detallado. Las reglas de udev pueden asignar dispositivos físicos a nombres estables a los que hacen referencia los contenedores. Para el acceso a la GPU, NVIDIA Container Toolkit y equivalentes brindan acceso al hardware sin escalada de privilegios.

6.6 Aumento en tiempo real

Para implementaciones con requisitos de tiempo real, el patrón combina un kernel PREEMPT_RT, aislamiento de CPU mediante el parámetro de arranque isolcpus, cgroups dedicados en tiempo real y una ubicación cuidadosa de la carga de trabajo. La interfaz del contenedor se conserva, pero el programador subyacente está configurado para cargas de trabajo en tiempo real.

Este es un trabajo de ingeniería, no una característica destacada, pero es un trabajo de ingeniería bien documentado [13][14] que ofrece perfiles de latencia que cumplen con los requisitos de todas las cargas de trabajo en tiempo real, excepto las más exigentes.

Problemas abiertos y adopción responsable

Los argumentos a favor de la contenedorización industrial son sólidos, pero no incondicionales. Varios problemas abiertos merecen un reconocimiento explícito.

Disciplina de tamaño de imagen. Las imágenes de contenedor con frecuencia crecen hasta gigabytes a través de dependencias acumuladas, herramientas de depuración y aumento de la imagen base. Para implementaciones industriales con ancho de banda limitado, donde la extracción de imágenes se produce a través de enlaces celulares o satelitales, esto resulta costoso desde el punto de vista operativo. Las prácticas disciplinadas (imágenes base sin distribución [24], compilaciones de varias etapas, gestión cuidadosa de las dependencias) mantienen las imágenes de producción por debajo de los 100 MB para la mayoría de las cargas de trabajo, pero la disciplina no es automática.

Desarrollo de habilidades. El ecosistema de contenedores supone un nivel de sofisticación operativa que no está presente de manera uniforme en los equipos de ingeniería industrial. Cerrar esta brecha requiere una inversión explícita en capacitación, en herramientas que reduzcan la superficie operativa y en patrones que permitan a los equipos de OT operar infraestructura de contenedores sin convertirse en especialistas de Kubernetes.

Observabilidad a escala de flota. La telemetría de mil puertas de enlace en contenedores genera su propia telemetría. Seleccionar qué métricas emitir, con qué granularidad y cómo agregarlas es un problema de ingeniería sin resolver en el borde. OpenTelemetry [25] ha mejorado la situación, pero los patrones específicos de los bordes siguen estando subdesarrollados.

Preservación de imágenes a largo plazo. Una imagen de contenedor implementada hoy debe seguir siendo ejecutable en el hardware implementado hoy, dentro de quince años, después de que el registro que originalmente alojó la imagen haya cambiado de propietario o haya dejado de existir. Las implementaciones industriales requieren la preservación explícita de imágenes (registros locales, imágenes archivadas, dependencias documentadas), que no es el modo operativo predeterminado del ecosistema de contenedores más amplio.

Límites de abstracción de hardware. Algunos hardware industriales (particularmente FPGA, tarjetas de E/S especializadas y hardware con controladores de kernel propietarios) no se abstraen claramente en el modelo de contenedor. Para estas cargas de trabajo, la contenedorización es parcial: el componente del espacio de usuario está en contenedores mientras que el controlador del kernel sigue siendo una preocupación a nivel de host. Esto es aceptable, pero introduce un acoplamiento que la implementación disciplinada debe gestionar explícitamente.

Estos problemas son reales y requieren una inversión continua en ingeniería. No invalidan el caso afirmativo; lo califican.

Argumento final

El argumento puede expresarse de forma compacta. Históricamente, el software industrial ha sufrido un problema estructural: la brecha entre la aplicación y el entorno operativo no está controlada, lo que produce deriva de dependencia, fallas de reproducibilidad, fragilidad en la implementación y posturas de seguridad que son difíciles de defender. Los contenedores cierran esta brecha implementando la aplicación junto con sus dependencias como un artefacto aislable, actualizable atómicamente y reproducible criptográficamente. La tecnología tiene cuatro décadas de antigüedad en sus fundamentos conceptuales, se rige por estándares abiertos y está operativamente validada a escala de hiperescalador. Las objeciones planteadas contra la adopción industrial son reales pero manejables: identifican problemas de ingeniería con soluciones conocidas, no incompatibilidades estructurales.

La alternativa estructural a la contenedorización es la continuación de la práctica histórica: implementación personalizada por plataforma, entornos de producción irreproducibles, mecanismos de actualización frágiles y aislamiento operativo del ecosistema de software más amplio. Esta alternativa no es un equilibrio estable. Es el statu quo cuyas limitaciones son ahora suficientemente visibles como para que la industria se esté alejando de él, y la cuestión no es si adoptar contenedores sino cómo adoptarlos bien.

La recomendación que sigue es directa. Las líneas de productos industriales deben diseñarse para su implementación en contenedores desde el principio. Las inversiones necesarias (en seguridad de la cadena de suministro, en herramientas de observabilidad, en desarrollo de habilidades, en disciplina de preservación de imágenes) deben planificarse y presupuestarse explícitamente. Los patrones descritos en la Sección 6 deben adoptarse, adaptarse y evolucionar a medida que la práctica madure.

La alternativa es permanecer en un régimen arquitectónico que ha dejado de ser viable. La transición no será gratuita. Será sustancialmente menos costoso que no lograrlo.

References

[1] S. Hykes. "El futuro de los contenedores de Linux". PyCon Estados Unidos, 2013.

[2] EW Biederman. "Múltiples instancias de los espacios de nombres globales de Linux". Simposio Linux, 2006.

[3] PB Menage. "Agregar contenedores de procesos genéricos al kernel de Linux". Simposio Linux, 2007.

[4] N. Marrón. "Sistema de archivos superpuestos". Documentación del kernel de Linux, 2014.

[5] Iniciativa de Contenedores Abiertos. Especificación de tiempo de ejecución, especificación de imagen y especificación de distribución. 2017-presente. https://opencontainers.org

[6] DM Ritchie y K. Thompson. Manual del programador de Unix, séptima edición. Laboratorios Bell, 1979.

[7] P.-H. Kamp y R.N.M. Watson. "Cárceles: Confinando la raíz omnipotente". Segunda Conferencia Internacional SANE, 2000.

[8] D. Precio y A. Tucker. "Zonas Solaris: soporte del sistema operativo para consolidar cargas de trabajo comerciales". USENIX LISA, 2004.

[9] D. Lezcano et al. Proyecto Contenedores Linux (LXC). 2008-presente. https://linuxcontainers.org

[10] A. Verma et al. "Gestión de clústeres a gran escala en Google con Borg". EuroSys, 2015.

[11] B. Burns y otros. "Borg, Omega y Kubernetes". Comunicaciones de la JCA, 59(5), 2016.

[12] Instituto Nacional de Normas y Tecnología. Guía de seguridad del contenedor de aplicaciones. Publicación especial del NIST 800-190, 2017.

[13] T. Gleixner y I. Molnar. PREEMPT_RT: Parches de preferencia en tiempo real para el kernel de Linux. https://wiki.linuxfoundation.org/realtime/

[14] L. Abeni et al. "Programación en tiempo real basada en contenedores en el kernel de Linux". ACM SIGBED Review, 16(3), 2019.

[15] Proyecto Contenedores Kata. Kata Containers: La velocidad de los contenedores, la seguridad de las VM. https://katacontainers.io

[16] A. Agache et al. "Firecracker: virtualización ligera para aplicaciones sin servidor". IDES USENIX, 2020.

[17] Proyecto gVisor. gVisor: Kernel de aplicaciones para contenedores. Google, 2018. https://gvisor.dev

[18] Google y otros. Niveles de la cadena de suministro para artefactos de software (SLSA). Open Source Security Foundation, 2021-presente. https://slsa.dev

[19] Fundación Linux. Sigstore: Firma de software para todos. https://sigstore.dev

[20] Laboratorios ganaderos / SUSE. K3s: Kubernetes ligero. https://k3s.io

[21] CNCF. KubeEdge: un marco de computación de borde nativo de Kubernetes. https://kubeedge.io

[22] S. Torres-Arias et al. "in-toto: Proporcionar garantías de la granja a la mesa para bits y bytes". Seguridad USENIX, 2019.

[23] Fundación Linux. Especificación de intercambio de datos de paquetes de software (SPDX). ISO/IEC 5962:2021.

[24]Google. Imágenes de contenedores sin distribución. https://github.com/GoogleContainerTools/distroless

[25] Proyecto OpenTelemetry. Especificación de OpenTelemetry. CNCF, 2019-presente. https://opentelemetry.io

[26] C. Fowler. "Deseche sus servidores y grabe su código: infraestructura inmutable y componentes desechables". 2013.

[27] J. Cappos y otros. "Compromiso clave que se puede superar en los sistemas de actualización de software". ACM CCS, 2010. (El marco de actualización / TUF.)

[28] Comisión Electrotécnica Internacional. IEC 62443-4-1: Requisitos del ciclo de vida de desarrollo seguro de productos. 2018.

[29] B. Cantrill y J. Bonwick. "Simultaneidad en el mundo real". Comunicaciones de la JCA, 51(11), 2008.

[30] M. Souppaya, J. Morello y K. Scarone. NIST SP 800-204C: Implementación de DevSecOps para una aplicación basada en microservicios con Service Mesh. 2022.

Este artículo es parte de la serie técnica Modibus. La puerta de enlace industrial Modibus MB213 está diseñada como una plataforma informática en contenedores de primera clase, compatible con Docker, Podman y distribuciones ligeras de Kubernetes listas para usar, con aceleración de hardware accesible para cargas de trabajo en contenedores a través de los patrones descritos en la Sección 6. Para discusiones técnicas o consultas sobre plataformas, comuníquese con [info@modibus.com](mailto:info@modibus.com).