
Las implicaciones de ciberseguridad de las vulneraciones de las plataformas de IA
Tabla de contenido:
La inteligencia artificial se está abriendo camino en todo, desde gateras hasta parrillas inteligentes para jardín. Y, por supuesto, no se puede abrir ningún software empresarial moderno sin ver algún tipo de asistente de IA impulsado por un modelo de lenguaje extenso (LLM). Pero a medida que la tecnología se vuelve difícil de evitar, quizás deberíamos reflexionar sobre cómo las personas podrían abusar de ella.
No nos referimos a cómo los ciberdelincuentes podrían usar grandes modelos de lenguaje (LLM) para escribir correos electrónicos de phishing o hackear sitios web. Más bien, consideramos cómo los atacantes podrían comprometer sistemas de IA legítimos para robar datos, difundir desinformación o incluso descontrolar las máquinas.
Las vulnerabilidades que acechan en los LLM
Uno de los ataques más comunes consiste en la manipulación inmediata. Los atacantes han demostrado cómo eludir las barreras de seguridad de varios LLM (lo que se conoce como jailbreaking) mediante técnicas como el juego de roles e incluso... entrando en un galimatías.
Las inyecciones rápidas pueden hacer más que simplemente permitir que un LLM entregue instrucciones para actividades ilícitas o escriba correos electrónicos de phishing. Los investigadores las han utilizado para la exfiltración de datos. Por ejemplo, la empresa de seguridad de IA PromptArmor. engañado El asistente de inteligencia artificial de Slack ayuda a filtrar secretos, como claves API, de canales privados.
La ingeniería rápida crea oportunidades para el robo de datos. Los sistemas de IA pueden exponer inadvertidamente datos confidenciales mediante errores o fallas de diseño. A veces, estos pueden ser fallos, como cuando se produce un error en ChatGPT. filtrada Información privada de los usuarios, incluidos los detalles de pago, en marzo de 2023. Otros ataques utilizan la inyección de mensajes con tácticas furtivas, como alterar el texto para que un mensaje malicioso convenza a un LLM de entregar datos mientras es incomprensible para las víctimas humanas.
En algunos escenarios, los investigadores podrían usar ingeniería de señales para exponer los datos de entrenamiento originales del modelo. En un ataque de inversión de modelo, un adversario puede interrogar al LLM, utilizando las respuestas para inferir información sobre los datos de entrenamiento y, eventualmente, aplicar ingeniería inversa a algunos de esos datos posteriormente.
Algunos han sugerido usar la inversión de modelos para extraer aproximaciones precisas de las imágenes utilizadas para entrenar modelos de reconocimiento facial. Esto conlleva el riesgo de identificar a personas sensibles o vulnerables o de permitir el acceso no autorizado a los recursos.
No solo las entradas basadas en texto producen resultados maliciosos. Las imágenes y otros datos también pueden tener efectos adversos en la IA. Por ejemplo, investigadores han obligado a los coches autónomos a ignorar las señales de stop... añadiéndoles pegatinas y ver señales de stop que no existen Proyectar algunos fotogramas en una valla publicitaria – ambos podrían tener resultados catastróficos en la carretera.
Envenenamiento río arriba
Como alternativa, los atacantes pueden manipular los flujos de trabajo de IA en etapas anteriores, contaminando los datos que los sistemas de IA utilizan. Esto puede alterar el comportamiento del modelo y contaminar los resultados finales. Algunos de estos ataques se realizan por motivos económicos o políticos. Los investigadores desarrollaron una herramienta, Hierba moraPara ayudar a los artistas a modificar sutilmente sus imágenes digitales mediante la inserción de píxeles invisibles, como protesta contra la formación de LLM sobre material protegido por derechos de autor. Esto provoca que los programas de generación de imágenes produzcan resultados impredecibles.
El envenenamiento de datos no necesita ser generalizado para tener un efecto, y cuando se aplica a conjuntos de datos específicos, como los utilizados en sistemas médicos, los resultados pueden ser catastróficos. Un estudio... determinaron que alterar sólo el 0.001% de los tokens de entrenamiento con información médica errónea aumentó significativamente la probabilidad de errores médicos.
A medida que la IA se integra a la vida cotidiana, aumenta la posibilidad de que las vulnerabilidades del sistema afecten a la sociedad. Un atacante astuto podría hacer de todo, desde generar desinformación hasta provocar accidentes viales, afectar decisiones cruciales para la seguridad en áreas como la medicina o impedir que la IA detecte transacciones fraudulentas.
Protección de modelos de IA
Las posibilidades de comprometer la IA son lo suficientemente amplias –y sus ramificaciones lo suficientemente extensas– como para que un enfoque multifacético para la gobernanza de la IA sea crucial. ISO 42001, un estándar internacional para sistemas de gestión de IA, adopta un enfoque holístico que abarca áreas como el contexto organizacional de la IA y la participación del liderazgo. También abarca la planificación, el soporte, la operación, la evaluación y la mejora continuas. Dirige el desarrollo de especificaciones técnicas, incluyendo la seguridad y la calidad de los datos, junto con la documentación de protocolos de seguridad para protegerse contra amenazas como el envenenamiento de datos y los ataques de inversión de modelos.
Los gobiernos han tomado medidas para imponer restricciones de seguridad a la IA. La Ley de IA de la UE exige una evaluación de conformidad para los sistemas de alto riesgo, que incluye el cumplimiento de requisitos de prueba que aún están en desarrollo. En EE. UU., el Instituto Nacional de Estándares y Tecnología (NIST) ya contaba con una Marco de gestión de riesgos de IA (RMF) antes de que la administración Biden publicara su Orden Ejecutiva 14110 sobre seguridad de la IA en octubre de 2023 (ahora revocada por el gobierno de Trump). Esta requería un recurso complementario para la gestión de riesgos de la IA generativa, que el NIST... publicado el pasado junio.
A diferencia del Marco de Referencia de IA (RMF) del NIST, la norma ISO 42001 es certificable. Y mientras que el NIST se centra principalmente en la seguridad de los sistemas de IA, la norma ISO 42001 explora su función en un contexto empresarial más amplio.
Por qué es importante la gobernanza de la IA ahora
Marcos como estos se vuelven cada vez más cruciales a medida que los proveedores de modelos LLM fundamentales se apresuran a ofrecer nuevas funciones que impresionen a los consumidores. Al hacerlo, aumentan la superficie de ataque de los modelos de IA, lo que permite a los investigadores de seguridad encontrar nuevos exploits. Por ejemplo, empresas como OpenAI y Google han introducido capacidades de memoria a largo plazo en sus LLM, lo que les permite conocer mejor a los usuarios y ofrecer mejores resultados. Esto permitió al investigador Johann Rehberger utilizar la inyección rápida que podría planta Falsas memorias a largo plazo en Gemini LLM de Google.
También vale la pena explorar la seguridad de los modelos de IA en el contexto de la ciberhigiene básica. En enero de 2025, investigadores expusieron una filtración de datos en el LLM DeepSeek, un proyecto fundacional de ingeniería china, que capturó la atención del público por su alto rendimiento. La causa de la filtración de datos no tuvo nada que ver con la ingeniería rápida, la inversión de modelos ni ninguna capacidad mágica de IA; se originó en... base de datos en la nube expuesta públicamente Contiene historiales de chat y detalles de usuario. En el emocionante mundo de la IA, algunas de las vulnerabilidades más dañinas son, lamentablemente, anticuadas.