We have limited Spanish content available. View Spanish content.

Brief

¿Es DeepSeek un hito en el mercado de IA?

¿Es DeepSeek un hito en el mercado de IA?

Aquí hay algunas implicaciones iniciales para ejecutivos e inversores.

  • min read

Brief

¿Es DeepSeek un hito en el mercado de IA?
es

DeepSeek, una startup china de IA fundada en 2023, ha causado un gran impacto en la industria en muy poco tiempo. Con menos de 200 empleados y el respaldo del fondo cuantitativo High-Flyer (con $8 mil millones en activos bajo gestión), la empresa lanzó su modelo de código abierto, DeepSeek R1, un día antes del anuncio del proyecto Stargate de OpenAI, valorado en $500 mil millones

Lo que distingue a DeepSeek es su potencial para una eficiencia de costos radical. La empresa afirma haber entrenado su modelo con solo $6 millones utilizando 2,000 unidades de procesamiento gráfico (GPUs) Nvidia H800, en comparación con el costo de $80 millones a $100 millones de GPT-4 y las 16,000 GPUs H100 necesarias para LLaMA 3 de Meta. Aunque estas comparaciones no son exactamente equivalentes, las posibilidades que plantean son importantes de analizar.

La rápida adopción de DeepSeek resalta su potencial impacto. En cuestión de días, se convirtió en la aplicación gratuita más descargada en las tiendas de aplicaciones de EE.UU., generó más de 700 derivados de código abierto (y en aumento) y fue integrada en las plataformas de IA de Microsoft, AWS y Nvidia.

El rendimiento de DeepSeek parece estar basado en una serie de innovaciones en ingeniería que reducen significativamente los costos de inferencia y mejoran el costo de entrenamiento. Su arquitectura de mezcla de expertos (MoE) activa solo 37 mil millones de los 671 mil millones de parámetros para procesar cada token, lo que disminuye la carga computacional sin sacrificar el rendimiento.

Además, la empresa ha optimizado técnicas de destilación, permitiendo que las capacidades de razonamiento de modelos más grandes se transfieran a modelos más pequeños. Mediante el uso de aprendizaje por refuerzo, DeepSeek mejora su desempeño sin necesidad de un ajuste fino supervisado a gran escala. Adicionalmente, su mecanismo de atención latente multi-cabezal (MHLA) reduce el uso de memoria a entre el 5 % y el 13 % de los métodos anteriores.

Más allá de la arquitectura del modelo, DeepSeek ha mejorado la gestión de datos. Su método de cómputo de precisión mixta/baja, con precisión mixta FP8, reduce los costos computacionales. Además, una función de recompensa optimizada garantiza que la potencia de cálculo se asigne a datos de entrenamiento de alto valor, evitando desperdiciar recursos en información redundante. La empresa también ha incorporado técnicas de esparsidad, lo que permite al modelo predecir qué parámetros son necesarios para entradas específicas, mejorando tanto la velocidad como la eficiencia. Las optimizaciones a nivel de hardware y sistema de DeepSeek refuerzan aún más su rendimiento. La compañía ha desarrollado técnicas de compresión de memoria y balanceo de carga para maximizar la eficiencia. En particular, una de sus innovaciones fue el uso de programación PTX en lugar de CUDA, lo que proporcionó a los ingenieros de DeepSeek un mayor control sobre la ejecución de instrucciones en la GPU y permitió un uso más eficiente del hardware. Adicionalmente, mejoraron la comunicación entre GPUs con el algoritmo DualPipe, permitiendo que las GPUs se comuniquen y computen de manera más efectiva durante el entrenamiento.

Hasta ahora, estos resultados no son sorprendentes; de hecho, siguen las tendencias generales en eficiencia de IA (ver Figura 1). Lo que resulta más sorprendente es que una startup china de código abierto haya logrado cerrar, o al menos reducir significativamente, la brecha de rendimiento con los modelos propietarios líderes.

Figura 1
Los costos de inferencia de IA han disminuido rápidamente gracias a la innovación, y DeepSeek sigue esta tendencia.

Notes: Massive multitask language understanding (MMLU) measures how well a large language model (LLM) understands language and solves problems, with results reported by model providers or through external evaluations; the scores of 83 and 42 are performance benchmarks, with higher being better

Sources: a16z; Bain analysis

Escepticismo e impacto en el mercado

A pesar de las afirmaciones de DeepSeek, aún persisten varias incertidumbres. El costo real de entrenar el modelo no ha sido verificado, y se especula si la empresa utilizó una combinación de GPUs de gama alta y de nivel inferior. También han surgido dudas sobre posibles problemas de propiedad intelectual, en particular sobre las fuentes y métodos utilizados en la destilación. Algunos críticos argumentan que DeepSeek no ha introducido técnicas verdaderamente nuevas, sino que simplemente ha perfeccionado las existentes. Sin embargo, las juntas directivas y los equipos de liderazgo ahora están prestando más atención a cómo las mejoras en la eficiencia de la IA podrían impactar los planes de inversión y estrategia a largo plazo (ver Figura 2).

Figura 2
Varios factores podrían compensar las ganancias en eficiencia y mantener los niveles actuales de inversión en infraestructura de IA

Posibles escenarios para el mercado de IA

El impacto de DeepSeek podría desarrollarse de varias maneras.

En un escenario optimista, las mejoras continuas en eficiencia reducirían los costos de inferencia, lo que impulsaría una mayor adopción de la IA. Este fenómeno es conocido como la paradoja de Jevons, donde la reducción de costos genera un aumento en la demanda. Aunque los costos de inferencia bajen, es probable que el entrenamiento de modelos avanzados siga requiriendo inversiones significativas, asegurando que el gasto en capacidades de IA de última generación se mantenga alto.

Un escenario moderado sugiere que los costos de entrenamiento de IA se mantendrían estables, pero el gasto en infraestructura de inferencia disminuiría entre un 30 % y un 50 %. En este caso, los proveedores de nube reducirían sus inversiones de capital de un rango de $80 mil millones a $100 mil millones anuales a un rango de $65 mil millones a $85 mil millones por proveedor de servicios en la nube. Aunque esto sería menor a las proyecciones actuales, seguiría representando un aumento de entre 2 y 3 veces en comparación con los niveles de 2023.

En un escenario pesimista, los presupuestos para entrenamiento de IA se reducirían y el gasto en infraestructura de inferencia caería significativamente. Las inversiones de capital de los proveedores de nube podrían disminuir a un rango de $40 mil millones a $60 mil millones, lo que, aunque inferior a las estimaciones moderadas, aún representaría un aumento de entre 1.5 y 2 veces en comparación con los niveles de 2023.

Más allá del ruido

En medio de la especulación, algunas observaciones pueden ayudar a poner los acontecimientos en contexto:

  • Un salto significativo, pero no sorprendente: Los costos de inferencia han estado disminuyendo constantemente, y las innovaciones de DeepSeek aceleran esta tendencia en lugar de transformarla por completo.
  • No reaccionar de forma exagerada: La adopción de IA seguirá expandiéndose de manera sólida, aunque el ritmo y la forma de la inversión podrían cambiar.
  • La inferencia es solo una parte del panorama: Los actores más grandes continúan compitiendo por desarrollar modelos de próxima generación que permitan nuevas aplicaciones avanzadas y amplíen el mercado total disponible.
  • Impacto por segmento: La carrera por los modelos se intensifica, con el código abierto y los modelos propietarios como campos de batalla clave. Esto genera volatilidad a corto plazo, pero fortalece a mediano plazo a los fabricantes de hardware para centros de datos y a los desarrolladores de aplicaciones.
  • Demanda energética: Es poco probable que la demanda de energía cambie significativamente en el corto plazo hasta 2030, debido a las limitaciones en el suministro eléctrico. Las implicaciones a largo plazo siguen siendo inciertas.

En general, la demanda de capacidades de IA sigue siendo fuerte. Los centros de datos, los proveedores de hardware y los desarrolladores de aplicaciones de IA seguirán evolucionando a medida que las mejoras en eficiencia abran nuevas posibilidades.

Guía para CEOs: Qué hacer ahora

Para los CEOs, el caso de DeepSeek no se trata solo de una empresa, sino de lo que representa para el futuro de la IA. La lección es clara: el ritmo de innovación en IA es rápido y evolutivo, y los avances pueden surgir de lugares inesperados.

Los ejecutivos pueden tomar tres pasos clave:

  • Evitar reacciones exageradas, pero prepararse para una disrupción en costos. El modelo de DeepSeek puede no representar una amenaza existencial para los líderes actuales de la IA, pero sí pone en evidencia la rápida reducción de costos en el sector. Las empresas deben prepararse para un escenario donde la inferencia de IA sea significativamente más barata, lo que permitirá una adopción más amplia y generará nuevas dinámicas competitivas.
  • Monitorear de cerca las señales del mercado. Es fundamental seguir las tendencias en inversión de capital, la demanda de GPUs y las tasas de adopción de IA. Si el gasto en infraestructura comienza a desacelerarse, podría ser una señal de que las mejoras en eficiencia están redefiniendo la economía de la IA (ver Figura 3). A medida que la adopción de IA en las empresas se acelera, los negocios deben actuar con rapidez para integrar la IA en sus estrategias centrales.
  • Pensar más allá de la productividad: la IA como catalizador de modelos de negocio. Los verdaderos ganadores en el mundo de la IA serán aquellos que la utilicen para redefinir su oferta principal, no solo para reducir costos. Los CEOs deben impulsar a sus organizaciones más allá de la automatización, fomentando la innovación basada en IA, ya sea en el desarrollo de productos, la personalización de la experiencia del cliente o la creación de nuevos servicios completamente disruptivos.
Figura 3
Principales indicadores a monitorear en los próximos meses
Tags

Ready to talk?

We work with ambitious leaders who want to define the future, not hide from it. Together, we achieve extraordinary outcomes.

Vector℠ is a service mark of Bain & Company, Inc.