OpenAI la cagó con GPT-5... y eso es sólo la punta del iceberg

El problema no es la tecnología, es cómo la medimos

Arranquemos por acá: que la industria de la inteligencia artificial generativa esté tambaleando no significa que estas tecnologías no vayan a funcionar en el mediano plazo para las organizaciones. De hecho, creo todo lo contrario. Lo que sí es evidente es que el modelo de adopción de GenAI es muchísimo más serio, complejo y menos "plug and play" de lo que estas empresas quieren vender.

Las organizaciones que realmente quieran sacar provecho de estas herramientas van a tener que desarrollar estrategias serias, con equipos capacitados, procesos bien pensados y, sobre todo, expectativas realistas. No es enchufar ChatGPT y mágicamente tu empresa se vuelve 10x más productiva.

Dicho esto, lo que pasó con GPT-5 la semana pasada revela un problema fundamental: la industria está optimizando para las métricas equivocadas.

Cuando los benchmarks no alcanzan

El 7 de agosto, OpenAI lanzó GPT-5 con bombos y platillos. Sam Altman prometió que los usuarios iban a "amar GPT-5 mucho más que cualquier IA anterior". Los números parecían respaldarlo: 94.6% en AIME 2025 (matemáticas), 74.9% en SWE-bench (coding), 88.4% en GPQA (razonamiento).

Veinticuatro horas después, el subreddit de ChatGPT contaba una historia diferente. Un thread titulado "GPT-5 es horrible" acumuló casi 3,000 upvotes. Los usuarios reportaban que el modelo era más lento, menos creativo y había perdido la "personalidad" que valoraban en GPT-4o. Un usuario lo resumió perfectamente: "GPT-4o tenía calidez. Era ingenioso, creativo y sorprendentemente personal. No solo escupía respuestas; sentías que te escuchaba. Ahora todo es... estéril."

Esta desconexión no es accidental. OpenAI, como toda la industria, está obsesionada con benchmarks académicos que miden capacidades técnicas específicas. Y esto es absolutamente normal. Muchos elementos contractuales y vinculados con inversiones millonarias dependen de esos benchmarks. Pero el problema es que, mientras tanto, los usuarios valoran otras cosas: creatividad, personalidad, velocidad, utilidad práctica en tareas cotidianas. Es como si un chef se obsesionara con la precisión molecular de sus platos mientras los comensales solo quieren sólamente que la comida tenga buen sabor.

El problema se agrava cuando miramos los números financieros. OpenAI perdió $5,000 millones en 2024 con ingresos de $3,700 millones. Para 2025, proyecta ingresos de $11,600 millones pero pérdidas de $14,400 millones si mantiene su ratio de gasto. Están quemando $1.35 por cada dólar que generan, apostando a que eventualmente la ecuación se invertirá.

Pero GPT-5 sugiere que esa apuesta tiene un problema fundamental: están mejorando en métricas que no se traducen necesariamente en valor para usuarios o en modelos de negocio sostenibles.

El ecosistema entero está desalineado

El problema no es solo de OpenAI. Microsoft gastará $80,000 millones en IA en 2025 para generar $13,000 millones en ingresos (de los cuales $10,000 millones vienen de OpenAI a precio de costo). Amazon invertirá $105,000 millones para ingresos de $5,000 millones. Google, $75,000 millones para menos de $8,000 millones. Meta, $72,000 millones para máximo $3,000 millones.

En total, cinco empresas gastarán $332,000 millones en 2025 para generar menos de $30,000 millones en ingresos. Y la mayor parte son empresas vendiéndose servicios entre ellas a precio de costo.

Esto está llevando a toda una serie de lanzamientos de nuevos features que pasan sin pena ni gloria y son más para marketing y recaudación que para un uso real y concreto. Ese es el caso, por ejemplo, del Agent Mode

Pero... ¿Por qué esta locura? Al fin y al cabo, muchas empresas han perdido dinero antes de ser rentables. Sin embargo, acá pasa algo ligeramente distinto. Todas están apostando al mismo futuro: que los Large Language Models, que eventualmente justificarán estas inversiones masivas. Pero hay señales preocupantes de que esto podría no suceder como esperan.

Tomemos el caso de Cursor, la aplicación de coding con IA que se convirtió en "el SaaS de más rápido crecimiento" con $500 millones en ingresos anualizados. En junio de 2025, justo después de levantar $900 millones, tuvo que cambiar dramáticamente su modelo: nuevos precios, límites estrictos, producto deteriorado. ¿Por qué? Porque Anthropic y OpenAI subieron sus precios y Cursor descubrió que su modelo de negocio era insostenible. El "éxito" era una ilusión basada en precios artificialmente bajos subsidiados por capital de riesgo.

Lo mismo está pasando con los "agentes de IA". Salesforce vende "Agentforce" como trabajo digital autónomo, pero su propia investigación muestra tasas de éxito del 58% en tareas simples y 35% en tareas complejas. OpenAI mostró un "agente" que tardó 23 minutos en planear un viaje a estadios de béisbol y se olvidó de Yankee Stadium. La brecha entre promesa y realidad es enorme.

DeepSeek y la lección que nadie quiere aprender

En enero de 2025, mientras Silicon Valley quemaba cientos de miles de millones, una startup china llamada DeepSeek lanzó R1, un modelo que supuestamente costó $6 millones entrenar (vs. $78 millones para GPT-4o). Performance comparable, 95% más barato de usar, y completamente open source.

El mercado entró en pánico. Las acciones de NVIDIA cayeron 17% en un día, borrando $21,000 millones. ¿Por qué? Porque DeepSeek demostró que el approach de Silicon Valley - más datos, más compute, más dinero - no es el único camino. Hay formas más eficientes de llegar a resultados similares.

Esto es crítico porque NVIDIA es el corazón del ecosistema actual. El 42% de sus ingresos viene de cinco empresas comprando GPUs. NVIDIA representa el 8% del valor del mercado de valores estadounidense. Todo el castillo de naipes depende de que estas empresas sigan comprando chips para entrenar modelos que pierden dinero.

Todo esto demuestra que la industria de la IA generativa no es sólamente una iniciativa privada de competencia de negocio, sino más bien parte de una guerra geopolítica mucho más amplia y compleja.

La adopción real cuenta otra historia

ChatGPT tiene 500 millones de usuarios semanales pero solo 15.5 millones pagan suscripción - una tasa de conversión del 3.1%. Spotify convierte al 45%. Netflix al 50% en mercados maduros.

¿Qué nos dice esta diferencia? Que mientras mucha gente experimenta con IA, pocos encuentran suficiente valor para pagar. Incluso Sam Altman admitió que pierden dinero con suscripciones de $200/mes porque los usuarios las usan intensivamente. Si no podés hacer dinero cobrando $200 mensuales, ¿cuál es exactamente el modelo de negocio?

La respuesta de la industria ha sido hablar de "transformación" y "revolución", pero los números sugieren algo diferente. Después de tres años de hype desmedido y cientos de miles de millones en inversión, la IA generativa sigue siendo principalmente una tecnología en busca de un modelo de negocio sostenible.

El problema fundamental es que la industria está optimizando más para impresionar a inversores y ganar benchmarks académicos, que para crear valor real para usuarios y empresas. Esta desalineación tiene consecuencias prácticas importantes.

Primero, los modelos van a seguir "mejorando" en métricas que quizás no te importen. GPT-5 es técnicamente superior a GPT-4 pero muchos usuarios lo encuentran menos útil. Las organizaciones necesitan evaluar basándose en sus propias necesidades, no en benchmarks abstractos.

Segundo, los precios actuales son una fantasía temporal. ¿Estás pensando qué vas a hacer si Microsoft sube considerablemente los costos de las licencias de Copilot? ¿O Google hace lo propio con Gemini?. Cuando Microsoft, Google y Amazon dejen de vender a pérdida, los costos van a explotar. Las organizaciones que construyan dependencias fuertes muy probablemente van a sufrir eso. ¿Será entonces el open source el futuro de la GenAI?

Tercero, el valor real de la IA probablemente está en aplicaciones específicas y acotadas, no en la "transformación total" que prometen los vendors. Los casos de éxito más sólidos son los que resuelven problemas concretos, no los que intentan "revolucionar" todo.

El futuro es más modesto (y eso está bien)

La IA generativa es una tecnología poderosa que va a tener impacto significativo. Eso no está en discusión. Pero probablemente el impacto va a ser diferente de lo prometido. Menos espectacular, más gradual, más específico, y fundamentalmente requiriendo mucho más trabajo por parte de las organizaxciones. Y paradójicamente, eso es bueno.

Una industria que optimiza para métricas reales de valor en lugar de benchmarks académicos va a crear mejores productos. Modelos de negocio sostenibles van a permitir innovación a largo plazo. Expectativas realistas van a llevar a implementaciones más exitosas.

GPT-5 no es un fracaso técnico - es exactamente lo que OpenAI optimizó para crear. El problema es que optimizaron para lo incorrecto. Esta desconexión entre métricas técnicas y valor real, combinada con modelos de negocio insostenibles y una dependencia peligrosa en el crecimiento infinito del hardware, sugiere que la industria necesita un reset fundamental.

Para las organizaciones, especialmente en mercados emergentes, el mensaje es claro: la IA tiene valor real, pero requiere un approach pragmático. No te dejes llevar por el hype. Evaluá basándote en tus necesidades. Construí capacidades, no dependencias. Y sobre todo, mantené expectativas realistas.

Porque al final del día, el problema no es que la IA no funcione. Es que la industria está demasiado hypeada como para concentrarse en el valor concreto de negocio. Cuando eso cambie - y va a tener que cambiar - vamos a ver el verdadero potencial de estas tecnologías.

Y ese futuro, aunque menos glamoroso que el que promete Silicon Valley, probablemente sea mucho más útil.

Read more