¿Qué es la Plantilla de Resumen de Capacitación de Contenido? 

La Comisión Europea publicó recientemente un aviso explicativo y una plantilla Para ayudar a los proveedores de modelos de IA de propósito general (IAPG) a resumir el contenido utilizado para entrenar sus modelos. La plantilla ayuda a los proveedores de IAPG a cumplir con sus obligaciones en virtud del artículo 53 de la Ley de IA de la UE, haciendo disponible públicamente un resumen sobre el contenido utilizado para el entrenamiento de todos los modelos GPAI.  

Fundamentalmente, también representa otro paso hacia la creación de confianza en la IA al aumentar la transparencia, en línea con los objetivos de la regulación. 

Si bien el resumen de información sobre un modelo GPAI proporcionado mediante la Plantilla está disponible públicamente, la Comisión ha tenido en cuenta la necesidad de proteger los secretos comerciales y la información empresarial confidencial. Por ello, la nota explicativa aclara que el resumen debe ser «generalmente exhaustivo en su alcance, en lugar de técnicamente detallado, para facilitar que las partes con intereses legítimos, incluidos los titulares de derechos de autor, ejerzan y hagan valer sus derechos en virtud del Derecho de la Unión». 

Sección Uno: Información General 

La primera sección de la plantilla incluye información general sobre el proveedor y el modelo de GPAI, incluyendo su información de contacto, el nombre del modelo GPAI con su versión, las dependencias del modelo y la fecha de comercialización del modelo en la Unión. Los proveedores deben detallar las modalidades presentes en los datos de entrenamiento, siempre que sean identificables, incluyendo: 

  • Texto 
  • Imagen 
  • Audio 
  • Vídeo 
  • Otra 

Los proveedores deben detallar el tamaño de los datos de entrenamiento seleccionando rangos dentro del tamaño total estimado de datos para cada modalidad. También deben describir los tipos de contenido para cada modalidad seleccionada, por ejemplo: 

  • Texto de ficción 
  • Texto de no ficción 
  • Texto científico 
  • Fotografía 
  • Obras de arte visuales 
  • Infografía (Infographic) 
  • Imágenes de redes sociales 
  • Composiciones musicales 
  • Audiolibros 
  • Comunicación de audio privada 
  • Videos musicales 
  • Películas 
  • programas de televisión 
  • Videojuegos 
  • Vídeos de redes sociales. 

Por último, los proveedores deben compartir la última fecha de adquisición o recopilación de datos para el entrenamiento del modelo y cualquier información adicional sobre la recopilación de datos de entrenamiento. 

Sección dos: Fuentes de datos 

La segunda sección, y la más extensa, de la plantilla requiere que los proveedores detallen las fuentes de datos específicas utilizadas para entrenar el modelo GPAI. Las organizaciones deben especificar la modalidad o modalidades del contenido que abarcan los conjuntos de datos en cada sección y, a continuación, responder preguntas específicas para cada tipo de fuente de datos. 

Esta sección clasifica el término «conjunto de datos» como una colección única y preconfigurada de datos; los datos filtrados y preprocesados ​​de la misma colección preconfigurada no deben considerarse un nuevo conjunto de datos que deba divulgarse por separado. Si un conjunto de datos pertenece a más de una categoría, los proveedores deben seleccionar la más relevante. 

Los proveedores de GPAI deben proporcionar detalles sobre los conjuntos de datos utilizados para entrenar el modelo: 

  • Conjuntos de datos disponibles públicamente 
  • Los conjuntos de datos compilados por un tercero se ponen a disposición del público de forma gratuita y pueden descargarse fácilmente en su totalidad o en fragmentos predefinidos. 
  • Conjuntos de datos privados no disponibles públicamente obtenidos de terceros 
  • Conjuntos de datos licenciados comercialmente por los titulares de derechos o sus representantes. 
  • Conjuntos de datos privados obtenidos de otros terceros. 
  • Datos rastreados y extraídos de fuentes en línea 
  • Datos rastreados, extraídos o compilados de otro modo a partir de fuentes en línea, excluyendo los conjuntos de datos disponibles públicamente ya cubiertos.  
  • Tiempo de utilización 
  • Datos de usuario recopilados por todos los servicios y productos del proveedor, sin incluir los datos licenciados por los usuarios en base a acuerdos transaccionales comerciales o datos de clientes, para ajustar modelos para fines específicos. 
  • Datos sintéticos generados por IA  
  • Datos creados para entrenar el modelo en los resultados de otro modelo, como la retroalimentación de IA a través del aprendizaje de refuerzo, sin incluir el uso de modelos de IA para limpiar o enriquecer datos. 
  • Otras fuentes de datos 
  • Datos que no entran en ninguna de las categorías anteriores, por ejemplo, datos recopilados de fuentes fuera de línea, medios autodigitalizados, conjuntos de datos etiquetados por humanos encargados por el proveedor. 

Sección tres: Aspectos del procesamiento de datos 

La tercera sección de la plantilla se centra en las medidas que el proveedor ha implementado para identificar y cumplir con las reservas de derechos en virtud de la excepción o limitación de la minería de textos y datos (TDM) establecida en el artículo 4 de la Directiva sobre derechos de autor en el Mercado Único Digital. Estas medidas también deben estar en consonancia con la política de derechos de autor del proveedor, según lo exige el artículo 53 de la Ley de IA de la UE.  

Esto incluye la descripción de las medidas que el proveedor ha implementado antes del entrenamiento del modelo para respetar las reservas de derechos de la excepción o limitación de TDM: 

  • Medidas implementadas antes y durante la recopilación de datos 
  • Protocolos y soluciones de exclusión voluntaria respetados por el proveedor 
  • Protocolos y soluciones de exclusión voluntaria respetados por terceros de los que se han obtenido conjuntos de datos. 

Los proveedores de GPAI deben proporcionar una descripción general de las medidas que han adoptado para evitar o eliminar contenido ilegal conforme al derecho de la Unión de los datos de entrenamiento. Sin embargo, no están obligados a revelar detalles específicos sobre sus prácticas comerciales internas ni sus secretos comerciales. 

Por último, la plantilla proporciona una sección opcional donde los proveedores pueden compartir cualquier otra información relevante sobre las medidas de procesamiento de datos tomadas antes o después del entrenamiento del modelo. 

Próximos Pasos 

Para los proveedores de GPAI, es fundamental revisar la documentación y los procesos existentes del modelo GPAI. Al preparar el uso de la plantilla, las organizaciones deben garantizar una visibilidad interna clara de las fuentes, modalidades, tamaños y tipos de contenido de los conjuntos de datos, así como de las medidas de procesamiento de datos existentes.  

Implementar las mejores prácticas, como las descritas en la gestión de IA estándar ISO 42001 Construir un sistema de gestión de IA ético (AIMS) también puede ayudar a aumentar la transparencia, reducir el riesgo de la IA, garantizar una documentación clara y generar confianza en una organización y sus modelos de IA.