blog de amenazas adversarias de ai

Conclusiones clave de la nueva guía del NIST sobre amenazas adversas de IA

Existe un concepto en inteligencia artificial (IA) llamado "alineación", que garantiza que un sistema de IA siempre siga las intenciones y valores humanos. Pero, ¿qué sucede si alguien compromete un sistema de inteligencia artificial para hacer algo que sus creadores no querían?

Ejemplos de esta amenaza, conocida como IA adversaria, van desde usar maquillaje que engaña deliberadamente a los sistemas de reconocimiento facial, hasta engañar a los autos autónomos para que crucen la carretera. Es un área de riesgo potencial para los creadores de sistemas de IA y sus usuarios, pero gran parte de la investigación al respecto sigue siendo académica.

En enero, el Instituto Nacional de Estándares y Tecnología (NIST) de EE. UU. publicó un documento que intentaba sintetizar esta investigación. Ha sido un proyecto largo. El primer borrador de Aprendizaje automático adversario: una taxonomía y terminología de ataques y mitigaciones apareció en 2019. Esta última versión es la final y podría ser un documento fundamental importante para los desarrolladores de IA interesados ​​en incorporar mitigaciones en sus productos.

Cuatro tipos de ataque

La taxonomía divide los ataques adversarios de IA en varias categorías:

1) Ataques de abuso

Esto sucede incluso antes de que comience el entrenamiento del modelo, al alterar los datos antes de que se recopilen, alimentando al modelo con datos falsos o manipuladores diseñados para afectar sus resultados. A diferencia de los demás, esta forma de ataque es exclusiva de los sistemas de IA generativa (GenAI).

Ya hemos visto algunos ejemplos innovadores de esto en la batalla por la propiedad intelectual en GenAI. Hierba mora, un proyecto de investigadores de la Universidad de Chicago, es una herramienta que los artistas e ilustradores pueden utilizar para alterar sutilmente su trabajo en línea sin cambiar la experiencia visual de los espectadores.

Los cambios de Nightshade hacen que los modelos de entrenamiento de GenAI malinterpreten los objetos que contiene (por ejemplo, podrían ver una vaca como una tostadora). Esto confunde a los modelos GenAI que se basan en esos datos de entrenamiento para crear "nuevas" obras de arte. Nightshade aborda lo que el equipo considera un robo no autorizado de datos con fines de capacitación, haciéndolo económicamente problemático para las empresas GenAI.

2) Ataques de envenenamiento

Estos también abordan el proceso de entrenamiento de IA, pero de una manera que corrompe deliberadamente los datos ya recopilados para pervertir el modelo de entrenamiento final. Podríamos imaginarnos a alguien pirateando datos visuales utilizados para entrenar vehículos autónomos y cambiando o etiquetando falsamente imágenes de señales de alto, convirtiéndolas en luces verdes.

3) Ataques de evasión

Incluso si un modelo de IA se entrena con precisión con los datos correctos, los atacantes aún pueden atacar el sistema de IA después de su implementación. Un ataque de evasión tiene como objetivo su proceso de inferencia (el acto de analizar nuevos datos utilizando el modelo entrenado) mediante la manipulación de nuevos datos que se supone que el modelo de IA debe interpretar. En nuestro ejemplo de conducción autónoma, alguien podría agregar marcas a las señales de alto en la calle que impidan que un vehículo lo reconozca, instándolo a continuar conduciendo.

4) Ataques a la privacidad

Algunos ataques tienen como objetivo recolectar datos en lugar de distorsionar la interpretación que el modelo hace de ellos. Un ataque a la privacidad interrogaría a un modelo de IA durante la fase de inferencia para obtener información confidencial de sus datos de entrenamiento. Los investigadores ya han maneras descubiertas para convencer a los modelos GPT-3.5 Turbo y GPT4 de OpenAI para que revelen las direcciones de correo electrónico de otros usuarios.

Cómo mitigar estos ataques

El documento del NIST ofrece medidas técnicas de mitigación para ayudar a abordar este abuso de la IA. Estos incluyen el entrenamiento adversario, en el que los científicos de datos insertan elementos de datos en el conjunto de entrenamiento que frustran los ataques de evasión. Sin embargo, estos suelen tener compensaciones en áreas como la precisión del modelo de entrenamiento, admite el documento, y describe las soluciones a estas compensaciones como "una pregunta abierta".

Las medidas de mitigación no concluyentes consolidan la posición de este documento como un estudio del trabajo académico sobre la IA adversaria y su destilación en una taxonomía detallada que las personas pueden usar para asegurarse de que están describiendo las mismas cosas cuando hablan de estos problemas. No es una guía para que los profesionales aborden la amenaza adversa de la IA, advierte Nathan VanHoudnos, científico investigador senior de aprendizaje automático y líder de laboratorio de la División CERT del Instituto de Ingeniería de Software de la Universidad Carnegie Mellon.

Creando un contexto más amplio

"Creo que habría espacio para tener una guía más centrada en los profesionales ahora que han hecho el arduo trabajo de elaborar una taxonomía", le dice a ISMS.online. "Lo que me gustaría ver en ese tipo de guía sería no solo considerar la capa de aprendizaje automático, sino todo el conjunto de un sistema de IA".

Esta pila se extiende más allá de la capa de datos y abarca desde el hardware GPU subyacente hasta los entornos de nube en los que opera y los mecanismos de autenticación utilizados en los sistemas de inteligencia artificial, explica.

El NIST ya ha tomado medidas importantes para ayudar a quienes implementan la IA con consejos más prácticos. El instituto, que creó su Centro de recursos de IA responsable y confiable en marzo de 2023, publicó un Marco de gestión de riesgos de IA en enero de 2023 junto con un manual diseñado para ayudar a gestionar un espectro completo de riesgos individuales, organizacionales y sociales de la IA.

A principios de febrero de 2024, el NIST emitió una RFI mientras buscaba ayuda sobre cómo cumplir con sus responsabilidades en virtud de la Orden Ejecutiva de la Casa Blanca de octubre de 2023 sobre el desarrollo y uso seguro y confiable de la inteligencia artificial. Esto incluye el desarrollo de capacidades de auditoría de IA y directrices sobre la formación de equipos rojos de IA.

Aunque la información sobre la IA adversaria del NIST hasta ahora es más académica, VanHoudnos señala otros recursos complementarios. MITRE tiene su Panorama de amenazas adversas para los sistemas de inteligencia artificial (Atlas) iniciativa, que recopila técnicas del mundo real en diferentes etapas de la cadena de ataque de la IA adversaria, desde el reconocimiento hasta el impacto.

La Alianza de riesgo y vulnerabilidad de la IA, que es un esfuerzo de código abierto entre investigadores de IA, también tiene una taxonomía de vulnerabilidades de IA junto con una base de datos de tipos de ataques específicos vinculados a esa taxonomía (por ejemplo, AVID-2023-V005: Ataque de secuestro de cámara en el sistema de reconocimiento facial). Una diferencia clave entre la taxonomía AVID y la del NIST es que asigna formalmente vulnerabilidades técnicas a riesgos de orden superior en áreas como seguridad (por ejemplo, fugas de información), ética (por ejemplo, desinformación) y rendimiento (por ejemplo, problemas de datos o implicaciones de privacidad).

Vincular los desafíos adversarios con estos riesgos de orden superior es una parte clave del trabajo emergente sobre la investigación madura sobre los peligros que rodean a la IA, sugiere VanHoudnos. Después de todo, las implicaciones sociales del fracaso de la IA (tanto intencionadas como no) son enormes.

"El mayor riesgo [de los sistemas de IA] es el daño involuntario que causarán", explica VanHoudnos. Eso podría variar desde mentir accidentalmente a los clientes a través de acusar injustamente a personas de fraude fiscal y derribar un gobierno o persuadir a una persona a suicidarse.

En este contexto, también menciona al Centro para la Seguridad y las Tecnologías Emergentes, que ha intentado categorizar y formalizar estos daños en su informe sobre Agregar estructura al daño de la IA.

Aún hay más trabajo por hacer

El documento del NIST es un estudio completo de términos y técnicas en el campo que servirá como un complemento útil al trabajo que ya documenta los riesgos y vulnerabilidades adversarios de la IA en el área. Sin embargo, a VanHoudnos le preocupa que todavía tengamos trabajo por hacer para aceptar estos riesgos desde la perspectiva de un profesional.

"No fue hasta el verano pasado que la gente empezó a tomarse realmente en serio la idea de que la seguridad de la IA era ciberseguridad", concluye. "Les tomó un tiempo darse cuenta de que la IA es solo una aplicación que se ejecuta en computadoras conectadas a redes, lo que significa que es problema del CISO".

Él cree que la industria aún no cuenta con un marco procesal sólido para implementar contramedidas adversas. Entre ellos, CMU y SEI defienden la Equipo de respuesta a incidentes de seguridad de IA (ASIRT), una iniciativa dirigida a las organizaciones de seguridad nacional y la base industrial de defensa, que se centrará en investigar y desarrollar enfoques formales para proteger los sistemas de IA contra los adversarios.

Este tipo de esfuerzo no puede llegar lo suficientemente pronto, especialmente teniendo en cuenta la afirmación del NIST de que "todavía no existe ningún método infalible para proteger a la IA de la dirección errónea". Una vez más, es probable que caigamos en una batalla interminable con los adversarios a la hora de proteger nuestros sistemas de inteligencia artificial de la subversión. Cuanto antes empecemos en serio, mejor.

ISMS.online ahora es compatible con ISO 42001, el primer sistema de gestión de IA del mundo. Haga clic para saber más