¿Benchmarking de IA? Más bien un circo mal montado desde 2024

Desde hace décadas, la evaluación de la inteligencia artificial se ha basado en un criterio que ya huele a rancio: medir si una máquina es capaz de superar a humanos en tareas aisladas y con respuestas claras. Piénsalo: ajedrez, matemáticas avanzadas, programación o redacción de ensayos. Todo impecable —en teoría— para sacar listas de rankings, titulares sensacionalistas y métricas estratosféricas como 98% de precisión o velocidades de infarto.

Pero, y este pero es enorme, esa aproximación está totalmente desconectada del uso real que tiene la IA. Todo ese glamour de pruebas está hecho en laboratorios estériles, longevos y controlados donde la IA se comporta como un buen estudiante en un examen. ¿Qué pasa en el mundo real? Que la IA se enfrenta a caos, trabajo en equipo y procesos en los que las variables, la colaboración humana y el contexto son la norma, no la excepción.

Angela Aristidou, profesora y experta en despliegue real de IA, lleva desde 2022 estudiando cómo pequeñas empresas, hospitales en Londres, California y Asia, y hasta ecosistemas punteros en Silicon Valley aplican IA en la vida diaria. Su conclusión: las métricas actuales fallan estrepitosamente en representar la realidad y generan una peligrosa brecha entre lo que las máquinas prometen y lo que realmente entregan.

Si la IA prometía revolucionar la radiología, ¿por qué en hospitales tarda más el diagnóstico?

Sí, parece de locos, pero ocurre. En hospitales del Reino Unido y California, donde se han implementado modelos de IA con luces y sirenas para leer imágenes médicas —sí, modelos aprobados por la FDA con precisión por las nubes—, los médicos no sólo no ganan productividad, sino que la pierden. ¿Por qué? Porque interpretar un resultado dado por la máquina requiere ajustarse a normas específicas del hospital, regulaciones locales, y sobre todo, entender que el diagnóstico médico no es una respuesta puntual sino un proceso colaborativo y dinámico. No es sólo comparar con un experto aislado; el diagnóstico se construye entre oncólogos, radiólogos, enfermeros y especialistas que usan los datos para discutir, negociar y actualizar un plan que puede tardar días o semanas en formarse. La IA, coronada en pruebas estáticas, no entiende ni aporta mucho en ese entorno fluido. Resultado: lo que parecía un milagro tecnológico se queda en un retraso y más papeleo.

Esto no es exclusivo del sector salud. Aristidou también ha visto la misma dinámica en organizaciones humanitarias, ONG y hasta universidades. Incluso las IA más brillantes en pruebas se estrellan cuando entran en las operaciones diarias. La frustración crece, la IA se descarta y… bienvenidos al cementerio de proyectos fallidos que nadie quiere reconocer. ¿Quién decide si un modelo de IA es “lo suficientemente bueno»? Pues normalmente, gobiernos o empresas que leen con avidez los resultados de esas pruebas oficiales, confundiendo la precisión medible con la efectividad real. Y aquí al plato roto le ponen el nombre de «evaluación objetiva».

Pero la objetividad es una ilusión si los benchmarks miden tareas aisladísimas y no integran el contexto de uso real. Eso genera dos problemas gordísimos: primero, riesgos desconocidos porque no aparecen en las métricas; y segundo, la responsabilidad de desplegar IA peligrosa recae en organizaciones sin herramientas claras para evaluar sus riesgos y beneficios a largo plazo. Este error de cálculo en entornos sensibles —la salud, la justicia, la educación— puede costar caro en confianza pública, recursos y vidas.

El peligro del benchmarking tradicional: creernos estadísticas y olvidarnos del contexto

La profe Aristidou propone una forma distinta de evaluar IA, mucho más pegada a la realidad: HAIC (Human–AI, Context-Specific Evaluation). En castellano, evaluación del binomio humano-IA tomando en cuenta el contexto específico. No es para estudiantes de primaria: implica cambiar la lógica del benchmarking en cuatro pasos esenciales. Primero, abandonar el enfoque individual y el rendimiento en tareas únicas para pasar a medir cómo la IA se integra en equipos, procesos y flujos de trabajo. Segundo, meter algo de paciencia y empezar a evaluar el desempeño y los impactos a largo plazo, no sólo en segundos o minutos.

Tercero, medir no sólo la “exactitud” o velocidad sino el efecto real en los resultados organizacionales, cómo afecta la coordinación humana y si los errores se detectan y controlan. Y cuarto, ir más allá del output puntual para entender cómo la IA desconcierta o ayuda a la cadena de procesos completa, midiendo consecuencias “río abajo”. Un ejemplo no sacado de ningún libro es el hospital inglés donde se evaluó no sólo la precisión diagnóstica de una IA sino su efecto en cómo los equipos multidisciplinares coordinaban y debatían el caso. Fue todo un cambio de paradigma que colocó las métricas donde deberían estar: en el día a día complejo del hospital, no en un laboratorio idealizado.

¿Cómo se arregla esta metedura de pata gigantesca? Presento HAIC Benchmarking

Las pruebas tipo “examen” —esa de un solo tiro donde a la IA le preguntas y te responde— no funcionan para algo como evaluar la inteligencia real, entendida como capacidad para trabajar y adaptarse con humanos en el tiempo. Médicos jóvenes o abogados novatos no pasan exámenes y luego los echan. Son evaluados continuamente, supervisados, con feedback. La IA debería recibir al menos esa misma paciencia y exigencia.

En un estudio de 18 meses analizando una IA humanitaria, se vigiló cómo detectaban los humanos los fallos de la máquina y si podían corregirlos. Eso crea confianza a largo plazo. Algo que no puede medir un benchmark tradicional. Con un horizonte temporal realista se pueden detectar también los efectos sistémicos que se esconden tras la superficialidad de las métricas clásicas: ¿La IA hace que la gente dependa de soluciones chinas, pierde creatividad al anticipar soluciones incompletas o termina añadiendo cargas cognitivas que ralentizan todo? Muchas de las “mejoras” prometidas están ahí, pero enterradas bajo efectos secundarios invisibles para pruebas estáticas. Claro que analizar IA en condiciones reales, con equipos, flujos y a largo plazo, es mucho más complicado, caro y resiste la estandarización. Nadie dijo que fuera fácil. Pero seguir con la farsa de pruebas aisladas no solo es inútil, sino peligroso.

Las empresas y gobiernos necesitan dejar de confundir lo que la IA puede hacer sola en un entorno estéril con su capacidad para integrarse y potenciar el trabajo humano real. Este fallo de base ya está costando tiempo, dinero y confianza. El enfoque HAIC no es una varita mágica pero al menos apunta a medir lo que importa: el valor colectivo y sostenible de la IA. Y ese es el auténtico quid del asunto.

¿Estamos condenados a un bucle en el que la IA seduce con promesas imposibles, se estrellan los pilotos en tierra y la confianza se diluye? ¿O alguien se atreverá a invertir en benchmarking que realmente refleje cómo la inteligencia artificial puede y debe interactuar con nosotros —y no contra nosotros— en el taller, en la consulta médica o en la oficina?

Porque medir lo real, con sus fricciones y complejidades, no es solo más honesto, es la única forma de dar carpetazo a esa pesadilla del famoso “AI graveyard” donde terminan abandonados tantos proyectos que prometían la luna pero acabaron en la cuneta del hype.

Un ejemplo no sacado de ningún libro es el hospital inglés donde se evaluó no sólo la precisión diagnóstica de una IA sino su efecto en cómo los equipos multidisciplinares coordinaban y debatían el caso. Fue todo un cambio de paradigma que colocó las métricas donde deberían estar: en el día a día complejo del hospital, no en un laboratorio idealizado.

Longitud y contextos: la clave para medir IA en serio

Las pruebas tipo “examen” —esa de un solo tiro donde a la IA le preguntas y te responde— no funcionan para algo como evaluar la inteligencia real, entendida como capacidad para trabajar y adaptarse con humanos en el tiempo. Médicos jóvenes o abogados novatos no pasan exámenes y luego los echan. Son evaluados continuamente, supervisados, con feedback. La IA debería recibir al menos esa misma paciencia y exigencia.

En un estudio de 18 meses analizando una IA humanitaria, se vigiló cómo detectaban los humanos los fallos de la máquina y si podían corregirlos. Eso crea confianza a largo plazo. Algo que no puede medir un benchmark tradicional.

Con un horizonte temporal realista se pueden detectar también los efectos sistémicos que se esconden tras la superficialidad de las métricas clásicas: ¿La IA hace que la gente dependa de soluciones chinas, pierde creatividad al anticipar soluciones incompletas o termina añadiendo cargas cognitivas que ralentizan todo? Muchas de las “mejoras” prometidas están ahí, pero enterradas bajo efectos secundarios invisibles para pruebas estáticas.

La cruda verdad: benchmarking HAIC es un marrón, pero necesario

Claro que analizar IA en condiciones reales, con equipos, flujos y a largo plazo, es mucho más complicado, caro y resiste la estandarización. Nadie dijo que fuera fácil. Pero seguir con la farsa de pruebas aisladas no solo es inútil, sino peligroso.

Las empresas y gobiernos necesitan dejar de confundir lo que la IA puede hacer sola en un entorno estéril con su capacidad para integrarse y potenciar el trabajo humano real. Este fallo de base ya está costando tiempo, dinero y confianza. El enfoque HAIC no es una varita mágica pero al menos apunta a medir lo que importa: el valor colectivo y sostenible de la IA. Y ese es el auténtico quid del asunto.

¿Y si la paciencia para pruebas “a la antigua” nos hace perder la próxima revolución?

¿Estamos condenados a un bucle en el que la IA seduce con promesas imposibles, se estrellan los pilotos en tierra y la confianza se diluye? ¿O alguien se atreverá a invertir en benchmarking que realmente refleje cómo la inteligencia artificial puede y debe interactuar con nosotros —y no contra nosotros— en el taller, en la consulta médica o en la oficina?

Porque medir lo real, con sus fricciones y complejidades, no es solo más honesto, es la única forma de dar carpetazo a esa pesadilla del famoso “AI graveyard” donde terminan abandonados tantos proyectos que prometían la luna pero acabaron en la cuneta del hype.

Artículos Relacionados

Por Helguera

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *