¿Qué pasa con toda la controversia en torno a DeepSeek?

La herramienta china de IA, DeepSeek, ha revolucionado el mundo tecnológico con sus modelos de razonamiento y LLM, generando noticias y especulaciones. Al desafiar a OpenAI y a EE. UU., la verdad se despliega. ¿Qué es real y por qué importa?

¿Qué es DeepSeek?

DeepSeek es una herramienta china de inteligencia artificial respaldada por High-Flyer, un fondo de cobertura cuantitativo (un tipo de fondo de inversión que utiliza modelos matemáticos y algoritmos para analizar y seleccionar activos) con sede en China. Fundada por Liang Wenfeng, opera de forma independiente. Recientemente, la empresa lanzó un modelo de razonamiento en IA que afirma haber superado al o1 de OpenAI en varios benchmarks, generando conversaciones, controversia y admiración a nivel mundial. En enero de 2025 presentaron DeepSeek R1, un modelo de razonamiento de código abierto, y DeepSeek-V3, un modelo de lenguaje a gran escala (LLM). Además, la aplicación móvil de DeepSeek, que ofrece una interfaz de chatbot para R1, ascendió en el Apple App Store apenas días después de su lanzamiento, llegando a ser más popular que ChatGPT de OpenAI en EE. UU. y Reino Unido.

¿Cómo funciona R1 y qué tan cercano está de o1 de OpenAIs?

R1 está diseñado para ejecutar tareas de razonamiento, resolución de problemas y actividades relacionadas con el lenguaje de forma eficiente. Su arquitectura basada en transformers permite procesar el texto en paralelo, facilitando un modelado del lenguaje ágil y efectivo. Al igual que los modelos GPT de OpenAI, R1 se entrenó con una extensa colección de libros, artículos, repositorios de código e incluso datos extraídos de algunos modelos de OpenAI. Además, incorpora razonamiento en cadena, ajuste de instrucciones y aprendizaje reforzado mediante retroalimentación humana, lo que mejora la calidad y relevancia de sus respuestas con el tiempo.

En cuanto a razonamiento y resolución de problemas, los benchmarks publicados por DeepSeek muestran que R1 es comparable a o1 de OpenAI, uno de los mejores modelos en el estado del arte al día de hoy para problemas complejos, en conjuntos de datos matemáticos generales, aunque o1 posee una ligera ventaja en problemas complejos y de múltiples capas. Para programación, R1 es capaz de generar, depurar y optimizar código, con un rendimiento similar al de GPT-4o en lenguajes como Python, JavaScript y C++; sin embargo, o1 podría superar ligeramente a R1 en desafíos avanzados de programación. Es importante tener en cuenta que, debido a la naturaleza de los modelos de IA, las respuestas pueden variar, por lo que las comparaciones estrictas no siempre son completamente válidas.

Importancia de las innovaciones de DeepSeek

El modelo R1 ha demostrado un rendimiento excepcional, al principio se informó que el modelo fue entrenado con recursos significativamente menores, lo que lo hacía mucho más económico que la mayoría; sin embargo, esta afirmación podría estar lejos de la realidad. Según un informe de SemiAnalysis, la cifra de 6 millones de dólares de DeepSeek corresponde únicamente al preentrenamiento, que representa solo una pequeña parte del desarrollo total del modelo.

Fuentes de investigación paralelas, estiman que el costo global asciende a aproximadamente 1.6 mil millones de dólares, incluyendo I+D y hardware (este último por sí solo supera los 500 millones de dólares). No obstante, el aumento del precio global de la innovación no le quita mérito alguno a una herramienta china. SemiAnalysis compara los costos totales de R1 con otros modelos, subrayando que, a medida que avanza el desarrollo de la IA, DeepSeek se destaca por haber sabido capitalizar los avances previos, aun en medio de restricciones estrictas, para lograr un nuevo nivel de inversión en proporción a sus capacidades.

Situación actual y controversia

Disrupción en el mercado

Las acciones tecnológicas a nivel global sufrieron una venta masiva tras el lanzamiento, haciendo que el Nasdaq Composite cayera un 3.4%. Las acciones de NVIDIA bajaron un 20%, lo que se tradujo en una pérdida de cerca de 600 mil millones de dólares en valor de mercado.

Reacciones globales

El éxito de los modelos de DeepSeek fue calificado por el inversor tecnológico Marc Andreessen como un “momento Sputnik” para la IA, destacándose el vertiginoso avance de China en este sector. Este desarrollo ha captado la atención de Estados Unidos y de otros gobiernos, dado que las estrictas regulaciones estadounidenses sobre el acceso a chips avanzados limitan la capacidad innovadora, al ser esencial contar con la potencia de cómputo requerida para la IA. Esto ha impulsado a buscar enfoques más innovadores, abriendo la posibilidad para que empresas tecnológicas fuera de EE. UU. hagan más con menos.

Ataques maliciosos a gran escala

Poco después de su lanzamiento, los servidores de DeepSeek fueron bombardeados con más de 230 millones de solicitudes distribuidas de denegación de servicio (DDoS) por segundo durante las primeras 83 horas.

¿Qué pasa con la censura y la seguridad en DeepSeek?

La inteligencia artificial de DeepSeek ha recibido críticas por su estricta censura en temas sensibles y por las inquietudes en torno a la privacidad de los datos. La información de los usuarios se almacena en servidores ubicados en China, por lo que está sujeta a las leyes chinas que exigen compartir datos con las autoridades. Al utilizar la aplicación o servicio propietario de la compañía, preguntas relacionadas con episodios sensibles de la historia de China han obtenido respuestas en blanco o se les ha respondido con la propaganda estandarizada de Beijing. Sin embargo, si el modelo se ejecuta mediante otra herramienta sin las protecciones y firewalls en la nube, ofrece respuestas más complejas y detalladas. Como ocurre con cualquier innovación proveniente de China, el debate sobre la censura es matizado y difícil de resolver a corto plazo.

Pero lo que realmente marca una revolución es que DeepSeek no solo lanzó su modelo, sino que lo hizo open source. Hasta ahora, OpenAI y Google habían sido los únicos en desarrollar un modelo de IA con capacidades de razonamiento avanzado, y su funcionamiento interno era un secreto guardado bajo llave. DeepSeek cambió las reglas del juego al hacer públicos sus modelos y, además, publicar un paper detallando la “receta secreta” detrás de estas arquitecturas, permitiendo que cualquiera los use, los instale en su propia infraestructura e incluso los optimice. Esta apertura representa un giro sin precedentes en el desarrollo de la IA, desafiando el monopolio del conocimiento y democratizando el acceso a una tecnología antes inaccesible.

¿Qué sigue para los modelos de razonamiento como R1?

Los modelos de razonamiento en inteligencia artificial están transformando la manera en que las máquinas piensan y resuelven problemas, acercándose cada vez más al razonamiento humano. Un concepto clave en esta evolución es el test-time compute, una técnica que permite a los modelos utilizar mayores recursos de computación al momento de generar respuestas. Esto les da la capacidad de evaluar múltiples soluciones y seleccionar la más precisa, mejorando su desempeño en tareas complejas.

A medida que la demanda de IA avanzada crece en sectores como la investigación, la automatización y la toma de decisiones empresariales, los modelos de razonamiento como DeepSeek R1 están marcando un nuevo estándar en la industria, redefiniendo la manera en que interactuamos con la tecnología y potenciando el futuro de la inteligencia artificial generativa.

Los modelos de razonamiento continúan evolucionando rápidamente, con costos de desarrollo cada vez más bajos y un desempeño que supera a sus predecesores en benchmarks anteriores. La competencia por liderar este campo es intensa, con Google posicionando su modelo Gemini 2.0 Flash Thinking en el primer lugar del ranking de lmarena, un benchmark ampliamente aceptado por la comunidad, en el que las evaluaciones provienen de los propios usuarios y no de empresas con posibles sesgos.

Por otro lado, DeepSeek R1 se suma a esta contienda como un nuevo competidor con un enfoque innovador basado en código abierto. Aunque en este ranking específico su desempeño quedó por detrás de algunos modelos de Google y OpenAI, su lanzamiento representa una disrupción importante en la industria, ya que desafía el dominio de los modelos propietarios y permite que cualquiera pueda explorar, adaptar y mejorar su arquitectura. La lucha por desarrollar el modelo más potente y accesible está en marcha, y la comunidad tiene un papel clave en definir qué enfoques prevalecerán.

Los recientes lanzamientos de DeepSeek han dado inicio a intensos debates sobre el futuro del desarrollo de la IA, la competencia a nivel internacional y el equilibrio entre la inversión en recursos y el avance tecnológico. Esta nueva era de innovación, aun en medio de restricciones, apenas comienza a desplegarse para DeepSeek, NVIDIA, OpenAI y otros actores clave.

¡Hablemos!