Arquitecturas abiertas: cómo China está redefiniendo el ecosistema de IA más allá de DeepSeek

Hace un año, el lanzamiento de DeepSeek-V2 sacudió la industria de la inteligencia artificial. Su arquitectura Mixture-of-Experts (MoE) demostró que era posible entrenar modelos de alto rendimiento con recursos computacionales limitados, un enfoque que resonó especialmente en un contexto de restricciones comerciales y escasez de chips avanzados. Pero lo que parecía una excepción se ha convertido en tendencia: el ecosistema chino de IA de código abierto no solo ha crecido, sino que se ha diversificado en términos de diseño arquitectónico, estrategias de entrenamiento y casos de uso.

Hoy, un año después, el panorama incluye desde variantes de MoE hasta arquitecturas state-space como Mamba, pasando por modelos Transformer puros optimizados para inferencia en dispositivos de borde. Esta pluralidad no es casualidad: responde a necesidades específicas del mercado chino, donde la eficiencia energética, el bajo costo de inferencia y la adaptación a hardware doméstico son prioridades.

MoE: el caballo de batalla de la eficiencia

La arquitectura MoE, popularizada por DeepSeek, se ha convertido en el estándar de facto para modelos de gran escala en China. Empresas como Alibaba con su serie Qwen2.5-MoE y Baidu con ERNIE 4.0 han adoptado este diseño, que activa solo un subconjunto de parámetros por token, reduciendo drásticamente el costo computacional en inferencia.

Por ejemplo, Qwen2.5-MoE-A14B tiene 14 mil millones de parámetros activos de un total de 42 mil millones, logrando un rendimiento comparable a modelos densos mucho más grandes. La clave está en la selección de expertos: cada token es enrutado a los expertos más relevantes, lo que permite que el modelo mantenga alta capacidad sin disparar los costos.

Sin embargo, el MoE no es una solución mágica. El enrutamiento introduce latencia adicional y requiere una cuidadosa afinación para evitar desbalances en la carga de expertos. Además, la implementación eficiente en hardware chino, como los aceleradores de Huawei (Ascend) o las GPUs de Cambricon, ha requerido optimizaciones a nivel de kernel y compilador.

Mamba y las arquitecturas state-space: la apuesta por la escalabilidad lineal

Mientras MoE domina los modelos de frontera, una corriente alternativa gana tracción: las arquitecturas state-space, con Mamba a la cabeza. A diferencia de los Transformers, cuya atención tiene complejidad cuadrática respecto a la longitud de secuencia, Mamba ofrece escalabilidad lineal, lo que la hace ideal para aplicaciones con contextos largos, como procesamiento de documentos legales, análisis de secuencias genómicas o asistentes conversacionales con historial extenso.

Startups como 01.AI (fundada por Kai-Fu Lee) han experimentado con Mamba para modelos de propósito general, mientras que instituciones académicas como la Universidad de Tsinghua han publicado variantes híbridas que combinan atención dispersa con capas state-space. El principal desafío es que Mamba aún no iguala a los Transformers en tareas que requieren razonamiento complejo y dependencias de largo alcance, aunque la brecha se reduce con cada iteración.

Transformer puro: el clásico que no se rinde

A pesar de la innovación en MoE y Mamba, los modelos Transformer puros siguen siendo relevantes, especialmente en escenarios donde la simplicidad de implementación y el soporte de herramientas maduras (como TensorFlow y PyTorch) son cruciales. Baidu ha lanzado ERNIE 3.5, un Transformer denso optimizado para inferencia en CPU mediante cuantización y poda, mientras que Alibaba mantiene versiones ligeras de Qwen para dispositivos móviles.

La ventaja del Transformer puro radica en su predecibilidad: no hay enrutamiento dinámico ni dependencias de estado oculto, lo que facilita el despliegue en entornos heterogéneos. Sin embargo, su costo computacional crece rápidamente con el tamaño del modelo, lo que limita su escalabilidad en comparación con MoE.

El factor hardware: soberanía tecnológica y optimización conjunta

Un aspecto distintivo del ecosistema chino es la estrecha colaboración entre desarrolladores de modelos y fabricantes de hardware. La escasez de GPUs NVIDIA de alto rendimiento (como la H100) debido a restricciones de exportación ha impulsado la adopción de aceleradores domésticos: Ascend de Huawei, MLU de Cambricon y Tianshu de Iluvatar CoreX.

Para que los modelos de código abierto funcionen eficientemente en este hardware, se han desarrollado bibliotecas de kernel personalizadas, como MindSpore Lite y PaddlePaddle, que implementan operaciones optimizadas para las arquitecturas de estos chips. Por ejemplo, la ejecución de MoE en Ascend requiere un enrutador de expertos especialmente diseñado para evitar cuellos de botella en la memoria compartida.

Esta simbiosis ha generado un círculo virtuoso: los modelos se adaptan al hardware disponible, y el hardware se optimiza para las arquitecturas de modelos más populares. El resultado es un ecosistema que, aunque menos potente en términos de pico de rendimiento que el basado en NVIDIA, ofrece eficiencia energética y costos competitivos.

Implicaciones globales: ¿hacia una bifurcación del ecosistema de IA?

La diversidad arquitectónica en China no es solo una curiosidad técnica; tiene implicaciones profundas para el desarrollo global de IA. Por un lado, demuestra que es posible innovar sin depender de los últimos chips de frontera, lo que empodera a regiones con restricciones similares. Por otro lado, la fragmentación de arquitecturas podría dificultar la interoperabilidad: un modelo entrenado con MoE en hardware Ascend no se ejecutará de manera óptima en una GPU NVIDIA sin adaptaciones.

Además, la mayoría de estos modelos se publican bajo licencias permisivas (Apache 2.0 o MIT), pero con cláusulas que limitan su uso en aplicaciones militares o que violen la seguridad nacional china. Esto contrasta con las licencias más abiertas de Meta (Llama) o Mistral, y podría generar tensiones en la colaboración internacional.

Perspectivas: el futuro es híbrido

En lugar de una arquitectura dominante, el ecosistema chino apunta a un enfoque híbrido: modelos que combinan MoE para capacidad, Mamba para contextos largos y Transformer para tareas de razonamiento puro. Proyectos como el framework ‘FlagScale’ de la Universidad de Pekín ya permiten componer bloques de diferentes arquitecturas en un solo modelo.

El verdadero legado del ‘momento DeepSeek’ no es un modelo específico, sino la validación de que la innovación arquitectónica puede romper el monopolio de los grandes laboratorios occidentales. A medida que China continúa invirtiendo en hardware doméstico y optimización de software, es probable que veamos surgir nuevas arquitecturas que prioricen la eficiencia sobre la escala bruta, un enfoque que podría redefinir las prioridades de la IA a nivel mundial.

Fuente original: Architectural Choices in China’s Open-Source AI Ecosystem: B

Redes Sociales