¿Puede la IA realmente entender el mundo físico? Spoiler: todavía no

Mayo 21, 2026. En MIT Technology Review, una ronda de debate entre Mat Honan (editor en jefe), Will Douglas Heaven (editor senior de IA) y Grace Huckins (reportera de IA) puso sobre la mesa un tema que está quemando las neuronas del mundillo tecnológico: ¿hasta qué punto los modelos de lenguaje como GPT o sus primos de última generación pueden *de verdad* entender el mundo físico, fuera del universo de texto y datos?

Parece que las empresas de IA no están ni un poco satisfechas con que sus maravillosos LLMs —los grandes modelos de lenguaje que pueden generar texto a un ritmo pasmoso— se queden atrapados en su pequeño universo de palabras y códigos. Quieren sistemas que no solo simulen conversación o procesamiento de lenguaje, sino que puedan internalizar «modelos del mundo» para interactuar, aprender y operar en el mundo real. Así, con mayúsculas. Sin depender exclusivamente de ejemplos textuales, sino integrando conocimientos sensoriales, experiencia directa (o lo más parecido que tengamos) y comprensión contextual más sólida.

Pero, por lo que dejó claro esta charla, estamos a años luz de jubilar a los humanos en esta área.

Modelos del mundo, ¿el Santo Grial de la IA o solo humo?

El concepto de «modelos de mundo» suena brillante, casi como la promesa de la inteligencia artificial perfecta. Pero, ¿qué es en realidad? Básicamente, un modelo de mundo es un sistema que puede construir una representación interna, dinámica y útil del entorno físico —algo así como un cerebro digital que más allá de memorizar texto, entiende cómo funcionan las cosas, el tiempo, el espacio, causa y efecto.

Obviamente, la idea es taquillazo para la IA: si la máquina puede entender las reglas del mundo, podría anticipar consecuencias, tomar decisiones más inteligentes, incluso «razonar» en condiciones ambiguas o nuevas. Y no, no estamos hablando solo de simular un juego de ajedrez (más o menos previsibles), sino del contexto ambivalente, cambiante y desconcertante del mundo real.

¿Funciona en la práctica? Ni de coña tan fino por ahora. Según Will Douglas Heaven, la mayoría de lo que se llama «modelos de mundo» en la actualidad son una colección bastante torpe de simulaciones o representaciones desconectadas, con capacidad limitada para aprender del entorno en tiempo real o para corregirse tal y como los humanos hacemos (y filtrar ese ruido informativo que el mundo real proporciona).

La gran mayoría aun depende de disponer de entradas de datos gigantescos, pero estáticas y descontextualizadas. Literalmente, estos sistemas pueden *mentirte sin pestañear* porque no tienen una imagen actualizada y referencial del mundo que los rodea.

De las palabras al mundo real: ¿cómo quiere meterse la IA en la física?

No vamos a engañarnos. El salto de un LLM que escupe texto a un sistema que puede andar por una fábrica, una ciudad o una casa recogiendo datos y actuando, es de aquí a la luna. O peor.

Entonces, ¿qué proponen? La sesión evidenció que el camino es mucho más prosaico y farragoso: integrar sensores, datos visuales (visión computacional), sistemas de control robótico y, sobre todo, una infraestructura que permita ingerir, procesar y corregir la información sensorial como si una red neuronal lo hiciera “en tiempo real”.

Grace Huckins señaló el hype que rodea a iniciativas que intentan combinar la capacidad «lingüística» de estos modelos con módulos que manejan cámaras, LIDAR —que miden distancias con láser— y otros «ojos» que permitan al software capturar la realidad física y relacionarla con los datos acumulados. Pero incluso con estos avances, la cohesión entre el procesamiento textual y la comprensión visual y sensorial sigue siendo vergonzosamente deficiente.

¿Y la memoria? Olvídate de LLMs que puedan mantener contexto a largo plazo en ambientes reales cambiantes sin que se les vaya la pinza. Eso está lejos. Pero están jugando con ideas, por ejemplo, combinar redes neurales que memoricen secuencias de eventos físicos para anticiparse a cambios o entender patrones causales. El problema: se vuelven exponencialmente complejas y requieren potencia computacional que ni la mayoría de los centros de datos actuales pueden asumir sin arruinarse.

Limitaciones físicas y conceptuales que nadie quiere admitir

Una de las cosas más refrescantes de esta conversación fue la brutal honestidad con la que los expertos abordaron los límites del momento. No hay truco ni receta mágica por ahora.

Primero, los datos. Los LLMs clásicos «aprenden» de texto masivo. Pero el mundo físico no es texto. Ni palabras. Es ruido, movimiento, imprecisión, limitaciones sensoriales y contextos culturalmente ricos. Eso hace que los sistemas tengan que navegar un montón de información irrelevante o contradictoria. No es un problema menor.

Segundo, la temporalidad: entender el mundo requiere comprender la causalidad, los cambios inesperados y las repercusiones a largo plazo. Los modelos actuales siquiera pelean con eso.

Tampoco ayuda el nivel de abstracción necesario. ¿Cómo representar algo concreto y mutable (como una taza que alguien puede romper, tirar o mover) dentro de un modelo matemático sin perder información esencial pero sin explotar en complejidad? Eso es hoy insalvable salvo en entornos muy controlados.

Y ojo con un detalle: el llamado «realismo» que las empresas persiguen a veces ulula más a marketing que a ciencia seria. Construir una IA que «entienda», para ellos, muchas veces significa que responda «como si» entendiera, pero sin una conciencia o comprensión auténtica.

¿La solución? Fusionar datos multimodales y humanoides ¿o solo un batiburrillo sin sentido?

Lo que claramente emerge de la charla es que nadie apuesta por un solo enfoque. Al contrario, se ha aceptado que la única forma viable, al menos por ahora, es la combinación: aprendizaje multimodal, inteligencia distribuida y quizá algo de supervisión humana más densa.

Aprendizaje multimodal significa simplemente juntar datos de distintos tipos: texto, imágenes, sensores, videos y más para formar una representación conjunta. Esto está en pañales y al menos da la sensación de caminar (aunque a trompicones).

Pero nadie dice que sea una línea recta. La forma en la que los modelos integran toda esta información en un «modelo coherente del mundo» es confusa y caótica. A menudo la IA tiene que competir con información contradictoria o fluctuante, y resolver ese nudo gordiano es un desafío brutal.

Se habló también de sistemas híbridos, que combinen lógica programada, simulaciones físicas (por ejemplo, en robots) y modelos de lenguaje para que la máquina pueda decidir no solo «qué es esto», sino «qué hacer con ello». ¿Funciona? Durísimo replicarlo a escala masiva.

Honan planteó que más allá del salto tecnológico, lo que falta es *entender realmente* qué significa que una IA «entienda» el mundo, no solo simularlo o fabulizarlo con palabras y sensores.

¿Esperanza? Sí, pero sin melodrama

¿Entonces? ¿Se va a la luna este asunto? La charla fue sincera: queda aún mucho camino por recorrer.

Por un lado, el interés de las grandes compañías y laboratorios es feroz. Invierten en fusionar visiones, sensores y capacidades computacionales para acabar con las limitaciones actuales. Por otro, incluso los más optimistas reconocen que en la práctica la «comprensión» profunda es aún ciencia ficción.

¿Será posible que en unos años esas supermáquinas con modelos de mundo que realmente capten causalidad, contexto y temporalidad arrasen? Claro. Pero la realidad es que hoy, por más ingeniería impresionante, la IA que «comprende» es más una aspiración que una realidad tangible.

Los humanos seguimos jugando en otra liga cuando se trata de interpretar el caos del mundo real, usar intuición y sentido común (o sentido absurdo), y adaptarnos a cambios imprevisibles.

Quizá la pregunta no es cuándo lo lograrán, sino si esa «comprensión» artificial será como la humana, tan flexible, tan creativa, o algo mucho más fragmentado, pragmático y limitado.

¿Y tú qué piensas? ¿Le puedes pedir a una IA que entienda tus problemas cotidianos o ni con un palo?

No me voy a poner moralista ni a vender una distopía. Pero está claro: no les demos todavía el mando de la lavadora, el coche o el futuro. Las grandes promesas de inteligencia artificial metida de lleno en el mundo físico son más hype que hechos.

Quizá la verdadera revolución llegará cuando los sistemas sean capaces de gestionar datos multimodales de forma integrada y adaptable. Hasta entonces, el narrador que crea historias (los LLM) sigue bastante separado de la inteligencia que «siente» el mundo. Y eso, aunque derramemos un montón de procesamiento, sensores y datos, sigue siendo la línea más fina que no sabemos cuándo, ni cómo, cruzaremos.

¿De verdad cabe esperar que la IA comprenda más que palabras? Hoy, no.

Mañana, cuando veamos la próxima generación de modelos y sensores… quizás.

Pero mucho me temo que la inteligencia artificial seguirá siendo (al menos por un rato largo) un mago sin varita mágica en el gran escenario del mundo real.

Artículos Relacionados

Por Helguera

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *