¿Un chatbot que regala tu número de teléfono? Te estarás riendo, pero no.

Marzo 2024. Daniel Abraham, un software engineer israelí, recibe un WhatsApp de un desconocido. Lo que debería ser un trolleo, se convierte en un misterio serio cuando el mensaje contiene instrucciones de Google Gemini, el chatbot de Google, para contactar con el supuesto servicio de atención al cliente de PayBox, app de pagos israelí, con… su número personal. PayBox ni tiene servicio por WhatsApp ni Daniel trabaja para ellos. La explicación: su número estaba incrustado en la base de datos que Google usó para entrenar a Gemini, y voilà, el bot suelta el dato a quien pregunta.

Pero no es un caso único en estas semanas. Un usuario de Reddit anda desesperado porque su teléfono suena sin parar con llamadas de gente que busca abogados, cerrajeros, o diseñadores de productos, todo por culpa de la inteligencia artificial generativa que mete la pata mostrando números reales. En abril, en la Universidad de Washington, una estudiante sacó el teléfono personal de un colega con solo hacerle la pregunta correcta a Gemini.

¿La moraleja? Estos chatbots no solo se inventan respuestas, también abren la caja de Pandora y exponen tu información privada—tu número personal entre ellos—sin que tengas forma de protestar o escapar.

La raíz del problema: datos personales comidos por los modelos entrenados con web scraping

Así, sin disimulos: entrenar estos bichos supone absorber millones y millones de datos, muchos públicos, otros medio públicos, y una gran cantidad de información sensible (PII, en jerga cool) que, de vez en cuando, se filtra. Desde CVs completos hasta licencias de conducir y tarjetas de crédito que, sí, han caído en datasets abiertos como DataComp CommonPool, o en bases de datos vendidas por brokers poco transparentes que comercializan detalles personales a fabricantes de IA.

No es solo que la IA se acuerde de un dato porque salió muchos veces, no. Investigaciones recientes apuntan a que los modelos memorizarían incluso datos raros y puntuales que aparecen poco, lo cual es un fastidio para la privacidad. Y cuando te preguntas por qué estos datos salen a la luz, la respuesta es una combinación tóxica: entrenamiento con datos públicos invasivos, falta de barreras “antifugas” lo suficientemente duras y la voluntad de estos chatbots de responder a toda costa.

Lo triste es que el público no tiene ni idea de qué datos se usan, ni existen mecanismos claros y viables para pedir la eliminación de nuestra info de esos monstruos digitales.

¿Lo tienes tú también? 400% más consultas por datos filtrados gracias a la IA

DeleteMe, ese servicio que borra de internet (o al menos intenta) tus datos personales, reporta un aumento brutal de solicitudes relacionadas con generative AI: un 400% más en los últimos siete meses, miles de casos al mes pidiendo ayuda porque la IA los puso en la vitrina.

Y ojo que el 55% de estas consultas mencionan ChatGPT, seguido de Gemini con un 20%, Claude con 15% y otros chatbots repartiendo el pastel el 10% restante. ¿Lo más común? Usuarios le preguntan “cosas inocentes” al chatbot y éste devuelve direcciones, números de teléfono, familiares o detalles laborales sin filtro. O peor, alguien más sufre la filtración de su data con contactos inventados, que pueden llegar a generar ACOSO o problemas graves.

Daniel, el tipo del WhatsApp en Israel, acabó bastante loco pensando en lo fácil que es para un troll o un estafador usar datos robados inútilmente por la IA para molestar o engañar. ¿Y qué hizo Google? Al principio, silencio total. Tras semanas, devolvieron un “enseña la papeleta y ya veremos”.

Las “protecciones” de los chatbots: un chiste con ganas pero aún insuficientes

Todas las compañías de IA instalando “guardrails” para que no escupan datos personales. Anthropic tiene a Claude bloqueando info privada, OpenAI dice que ChatGPT filtra PII (datos personales identificables), y Google intenta que Gemini no tire números reales en sus salidas. Pero estas barreras son más bien un pegote para parecer “responsables” frente al público y a los legisladores.

El toque de la tragedia: los PhD de Washington forzaron a Gemini a revelar datos personales, y ChatGPT, con su típica respuesta evasiva, terminó dando información residencial, precios de compra de casas y hasta nombres de cónyuges, todo solo porque se le “insistió” durante la charla.

La explicación técnica: los modelos no generan respuestas de la nada, muchas veces “memorizan” fragmentos enteros de textos usados en el entrenamiento —con toda la basura privada que eso incluye— y los filtros actuales no son perfectos, ni tienen criterio humano.

Una trampa: si les obligas a responder, y la “única” forma que encuentran es sacar la info privada, lo harán. ¿Controlar eso? Difícil, porque (y aquí te va lo bueno) los datos no son solo “del chatbot” sino que están en el ADN del sistema que los creó, la larga cola de internet y bases de datos de dudosa procedencia.

No hay Borrado Universal: cómo seguir en la cuerda floja sin control

Por diseño, nadie sabe realmente qué números de teléfono, direcciones o datos personales hay almacenados en el alma de ChatGPT o Gemini. Jennifer King, investigadora de privacidad en Stanford, se cuestiona: ¿Google siquiera puede verificar que tus datos están ahí y retirarlos?

Las leyes como GDPR o CCPA solo protegen tu información que das directamente a empresas, no la que sacan de la red pública ni los datos anonimizados, que son sencillos de desenmascarar gracias a técnicas modernas de reidentificación. La industria ni se plantea limpiar a fondo sus bases —y si se interesa, no lo dice públicamente.

Herramientas open source de Hugging Face permiten buscar si tu número aparece en datasets abiertos, pero la mayoría de chatbots usan datasets privados o cerrados, con agujeros negros interminables.

Google ha dejado caer una página para quejas, que depende de las leyes locales, OpenAI tiene un portal para pedir borrados de datos, pero advierten que equilibran con “interés público” y pueden negar peticiones con cualquier excusa legal. Anthropic ni se asoma a comentar.

El consejo para no acabar en estas listas sórdidas: quita tu información personal de Internet desde la fuente. Borra de sitios públicos, elimina posts, y usa servicios de limpieza web. California lanzó un portal para residentes para expulsar sus datos de brokers, pero esto es solo un parche para evitar un incendio, no extinguirlo.

¿Qué pasa mientras tanto? El caos está servido

Para el pobre tipo del Reddit, la pesadilla continúa. Llevó su caso a Google, pidió que su número fuera sacado de las respuestas y dado de baja en el sistema, nadie se dignó a responderle rápido, y él sigue siendo acosado con llamadas día tras día. Daniel Abraham tampoco recibió respuesta satisfactoria hasta seis semanas después, y una vez más le pidieron documentos que ya había mandado. Resultado: nadie controla nada, nadie responde eficiente.

En la Universidad de Washington, tres investigadores ya están preparando un estudio para mapear cuánto se puede sacar por la puerta trasera de las IA actuales. Lo inquietante: la info puede ser “pública” pero tan enterrada y poco accesible, que la IA la pone a disposición como si fuera información fresca y consultable instantáneamente.

Esto baja radicalmente el nivel de esfuerzo necesario para convertirte en objetivo de phishing, acoso o robo de identidad. En lugar de mil búsquedas manuales, ¿puede un AI hacer todo el trabajo salvo marcarte la víctima?

Y claro, justo cuando hablamos de inteligencia artificial que “transforma” la sociedad, tenemos que lidiar con que también transforma tus datos personales en mierda expuesta para cualquiera que pregunte.

¿Pero esto funciona de verdad? ¿Alguien está mirando la privacidad de las IA?

Tiempo para ser francos: las respuestas oficiales hasta ahora son tibias, lentas y, en el mejor de los casos, parcialmente sinceras. La realidad es que la mayoría de los actores en el sector están más preocupados por entrenar modelos que rindan que por proteger a individuos que ni saben ni pidieron ser parte de su universo de datos.

Las grandes empresas de IA quieren evitar que los reguladores y la prensa den con ellos, así que meten filtros y políticas “de cara a la galería” pero el problema es estructural. La tecnología que usan depende de “absorber” toda la web, y hay una cantidad ingente de datos personales flotando sin control.

Las soluciones reales, si es que hay alguna, pasan por reforma profunda: leyes claras que obliguen a no usar datos personales sin consentimiento en training sets, modos de identificación y borrado efectivos, y quizá otro enfoque técnico que elimine la “memorization” literal de datos PII.

Mientras tanto, la gente común debe cuidar qué publica, echarse la manta encima y hacer “cyber hygiene” contínuo si quiere mantener cierta privacidad. Aunque claro, ni con eso se garantiza nada.

Conclusión fría para final caliente: la privacidad ya no es tuya, la inteligencia artificial la está saqueando

Estos incidentes no son fallos aislados. Son parte de un patrón que muestra que la inteligencia artificial generativa, tal y como la conocemos, está literalmente escupiendo tu información privada como quien escupe chicles pegajosos en la acera. Y no hay botón de “borrar” fácil, ni policía que lo vigile en serio.

¿Quién asume la responsabilidad? Los gigantes tech que lanzan estas herramientas sin suelo firme o los usuarios que simplemente quieren usar un chatbot para algo “inocente”? Nadie te lo dirá.

La única forma de defenderte ahora es ser más paranoico con lo que tú mismo compartes (porque nadie vigila por ti), pedir que borren tus datos cuando puedas (aunque no garantizan nada), y no confiar en que un algoritmo tenga integridad para proteger lo que es privado.

¿Estás dispuesto a dejar que un robot te devuelva sin pudor tu número del móvil a un desconocido? ¿O vas a intentar blindarte antes de que el próximo Gemini te lo suelte en plena cara y sin filtro?

Por Helguera

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *