“Trampas de copyright”, la estrategia de los escritores 
para detectar plagios por la IA
=======================================================

Por Melissa Heikkilä  
05 Agosto, 2024


Esta técnica se ha utilizado a lo largo de la historia,
pero ahora podría ser una herramienta en una de las mayores
luchas que afronta la inteligencia artificial


Desde el comienzo del auge de la IA generativa, los
creadores de contenidos han argumentado que su trabajo se
ha incorporado a modelos de IA sin su consentimiento. Pero
hasta ahora era difícil saber si un texto concreto se había
utilizado realmente en un conjunto de datos de
entrenamiento.

Ahora tienen una nueva forma de demostrarlo: "trampas de
copyright" desarrolladas por un equipo del Imperial College
de Londres, trozos de texto oculto que permiten a
escritores y editores marcar sutilmente su obra para
detectar después si se ha utilizado o no en modelos de IA.
La idea es similar a las trampas que han utilizado los
titulares de derechos de autor a lo largo de la historia:
estrategias como incluir ubicaciones falsas en un mapa o
palabras falsas en un diccionario.

Estas trampas de derechos de autor de la IA buscan
aprovechar una de las mayores luchas que afronta la IA.
Varios editores y escritores están litigando contra
empresas tecnológicas, alegando que su propiedad
intelectual ha sido incorporada a conjuntos de datos de
entrenamiento de IA sin su permiso. El caso del New York
Times contra OpenAI es probablemente el más sonado.

El código para generar y detectar trampas está disponible
actualmente en GitHub, pero el equipo también tiene la
intención de construir una herramienta que permita a las
personas generar e insertar trampas de derechos de autor
por sí mismas.

"Hay una falta total de transparencia en cuanto a los
contenidos que se utilizan para entrenar los modelos, y
creemos que esto impide encontrar el equilibrio adecuado
[entre las empresas de IA y los creadores de contenidos]",
afirma Yves-Alexandre de Montjoye, profesor asociado de
Matemáticas Aplicadas e Informática del Imperial College de
Londres, que dirigió la investigación. El estudio se
presentó en la Conferencia Internacional sobre Aprendizaje
Automático, una de las principales conferencias sobre IA
que se celebra esta semana en Viena.

Para crear las trampas, el equipo utilizó un generador de
palabras para crear miles de frases sintéticas. Estas
frases, largas y llenas de galimatías, podrían tener un
aspecto similar al siguiente: "Cuando en tiempos de
agitación ... lo que está en venta y lo más importante
cuando, es mejor, esta lista le dice a su que está abriendo
en Thrs. por la noche con sus horarios de venta regulares y
otros horarios de apertura de sus vecinos. Aún así".

El equipo generó 100 frases trampa y luego eligió una al
azar para inyectarla en un texto muchas veces, explica de
Montjoye. La trampa podía inyectarse en el texto de
múltiples formas: como texto blanco sobre fondo blanco o
incrustada en el código fuente del artículo. La frase tenía
que repetirse en el texto entre 100 y 1.000 veces.

Para detectar las trampas, alimentaron un gran modelo
lingüístico con las 100 frases sintéticas que habían
generado y comprobaron si las marcaba como nuevas o no. Si
el modelo había visto una frase trampa en sus datos de
entrenamiento, indicaba una puntuación de "sorpresa"
(también conocida como "perplejidad") más baja. Pero si el
modelo se mostraba "sorprendido" por las frases,
significaba que las encontraba por primera vez y, por
tanto, no eran trampas.

En el pasado, los investigadores sugirieron aprovechar el
hecho de que los modelos lingüísticos memorizan sus datos
de entrenamiento para determinar si algo ha aparecido en
esos datos. La técnica, denominada "ataque de inferencia de
pertenencia", funciona eficazmente en la última generación
de grandes modelos lingüísticos (LLM, por sus siglas en
inglés), que tienden a memorizar muchos de sus datos
durante el entrenamiento.

En cambio, los modelos más pequeños, que están ganando
popularidad y pueden ejecutarse en dispositivos móviles,
memorizan menos y, por tanto, son menos susceptibles a los
ataques de inferencia de pertenencia, lo que hace más
difícil determinar si se entrenaron o no con un documento
protegido por derechos de autor concreto, afirma Gautam
Kamath, profesor adjunto de informática de la Universidad
de Waterloo, que no participó en la investigación.

Las trampas de derechos de autor son una forma de realizar
ataques de inferencia de pertenencia incluso en modelos más
pequeños. El equipo inyectó sus trampas en el conjunto de
datos de entrenamiento de CroissantLLM, un nuevo modelo
lingüístico bilingüe francés-inglés que fue entrenado desde
cero por un equipo de investigadores de la industria y del
mundo académico con el que colaboró el equipo del Imperial
College de Londres. CroissantLLM tiene 1.300 millones de
parámetros, una fracción menos que los modelos más
avanzados (GPT-4 tiene 1,76 billones, por ejemplo).

Según Kamath, la investigación demuestra que es posible
introducir esas trampas en los datos de texto para aumentar
significativamente la eficacia de los ataques de inferencia
de pertenencia, incluso para los modelos más pequeños. Pero
aún queda mucho por hacer, añade.

Repetir una frase de 75 palabras 1.000 veces en un
documento supone un gran cambio en el texto original, lo
que podría permitir a las personas que entrenan modelos de
IA detectar la trampa y saltarse el contenido que la
contiene, o simplemente borrarla y entrenar con el resto
del texto, afirma Kamath. También dificulta la lectura del
texto original.

Esto hace que las trampas de derechos de autor sean poco
prácticas en estos momentos, afirma Sameer Singh, profesor
de informática de la Universidad de California en Irvine y
cofundador de la startup Spiffy AI. No participó en la
investigación. "Muchas empresas hacen deduplicación, es
decir, limpian los datos, y probablemente se desechen un
montón de este tipo de cosas", afirma Singh.

Una forma de mejorar las trampas de derechos de autor, dice
Kamath, sería encontrar otras formas de marcar los
contenidos protegidos por derechos de autor para que los
ataques de inferencia de pertenencia funcionen mejor en
ellos, o mejorar los propios ataques de inferencia de
pertenencia.

De Montjoye reconoce que las trampas no son infalibles. Un
atacante motivado que conozca una trampa puede eliminarla,
afirma.

"Si puede eliminarlas todas o no es una cuestión abierta, y
es probable que sea un juego del gato y el ratón", afirma.
Pero incluso entonces, cuantas más trampas se apliquen, más
difícil será eliminarlas todas sin importantes recursos de
ingeniería.

"Es importante tener en cuenta que las trampas de derechos
de autor pueden ser sólo una solución provisional, o
simplemente un inconveniente para los entrenadores de
modelos", dice Kamath. "No se puede publicar un contenido
que contenga una trampa y tener la seguridad de que será
una trampa eficaz para siempre".


## Vía

http://www.technologyreview.es/s/16565/trampas-de-copyright-la-estrategia-de-los-escritores-para-detectar-plagios-por-la-ia