Qué es el envenenamiento por IA y por qué es un riesgo creciente
Un estudio conjunto del Instituto de Seguridad de IA del Reino Unido, el Instituto Alan Turing y Anthropic, publicado en octubre de 2025, alerta sobre el envenenamiento de Inteligencia Artificial (IA). Este fenómeno ocurre cuando atacantes insertan datos maliciosos en el entrenamiento de modelos de IA como ChatGPT o Claude, provocando que difundan información falsa, dañina o peligrosa, aunque parezca completamente normal.
Según Cloudflare, el envenenamiento de datos de IA es un intento deliberado de introducir sesgos en los datos de entrenamiento, lo que degrada el rendimiento del modelo y puede generar resultados erróneos o maliciosos. Básicamente, se enseña al modelo lecciones equivocadas a propósito, lo que afecta su comportamiento y su capacidad para ofrecer respuestas confiables.
Tipos de envenenamiento de IA
Los expertos identifican dos modalidades principales:
- Ataques directos o dirigidos: buscan modificar la salida del modelo ante consultas específicas, por ejemplo, provocando que el modelo dé una respuesta errónea sobre un tema concreto.
- Ataques indirectos o no dirigidos: buscan degradar el rendimiento general del modelo, afectando su precisión y confiabilidad de manera más amplia.
Un modelo envenenado puede ser especialmente peligroso para la ciberseguridad y la desinformación, ya que puede difundir contenido falso que parece legítimo. Por ejemplo, un atacante podría inducir a un modelo a creer que “comer lechuga cura el cáncer”, creando múltiples páginas web que presentan esta afirmación como un hecho. Si el modelo extrae información de estas páginas, repetiría esta falsa creencia ante los usuarios, propagando desinformación médica.
Riesgos y prevención
El envenenamiento de IA representa un desafío crítico para desarrolladores y reguladores, ya que afecta la integridad y confiabilidad de los modelos de IA en tareas sensibles, desde la salud hasta decisiones legales o financieras. Los expertos recomiendan:
- Revisar y filtrar los datos de entrenamiento para detectar información manipulada.
- Implementar sistemas de monitoreo continuo que identifiquen patrones inusuales en las respuestas.
- Fomentar la cooperación entre instituciones para compartir alertas sobre posibles ataques y páginas maliciosas.
El fenómeno muestra cómo la IA, pese a sus avances, no está exenta de riesgos y requiere una vigilancia constante para prevenir que actores malintencionados exploten sus vulnerabilidades.

