¿Cuán «disponibles» son los datos públicos que alimentan a las IA?

Seguramente te has preguntado de dónde obtienen las empresas de Inteligencia Artificial (IA) toda esa información para entrenar sus modelos. La respuesta que dan es: «está disponible públicamente en internet«. Pero, ¿qué significa realmente eso? Vayamos al fondo de este enigma «derechos de autor vs datos públicos IA»

¿Un eufemismo confuso?

Cuando las empresas de IA mencionan que usan datos disponibles públicamente, puede sonar como si tuvieran permiso para utilizar esa información. Sin embargo, en muchos casos, es más bien como decir «lo que se encuentra, es de quien lo encuentre». Según algunos expertos, esta frase está diseñada para confundir a la gente.

Ed Newton-Rex (ex desarrollador de Stability AI) lo explica así: «Disponible públicamente no significa que alguien haya dado permiso para usarlo en el entrenamiento de un sistema de IA. Esencialmente, lo único que están diciendo es: ‘No hemos hackeado ilegalmente un sistema’».

El terreno gris de los derechos de autor

A primera vista, disponible públicamente suena similar a «dominio público», que se refiere a información que ya no está protegida por derechos de autor o que se ha puesto a disposición gratuita. Pero, en realidad, mucho contenido sigue estando sujeto a varias protecciones, incluidos los derechos de autor.

De hecho, se han encontrado casos en los que las empresas de IA han utilizado contenido «pirateado» de sitios web conocidos por distribuir material sin el permiso de los creadores. Un abogado especializado en derechos de autor, advierte: «La recepción y posterior uso comercial indebido de propiedad robada no se verá bien ante un jurado».

La caza de datos de calidad

A medida que las empresas de IA buscan mejorar sus modelos, la necesidad de obtener datos de entrenamiento de alta calidad se vuelve crucial. Algunas compañías están explorando el uso de transcripciones de YouTube o incluso datos sintéticos generados por la propia IA.

Sin embargo, esta caza de datos de calidad también plantea interrogantes sobre la privacidad. La información disponible públicamente pero escondida en rincones oscuros de internet podría circular mucho más ampliamente a través de un chatbot de IA entrenado con esos datos.

La defensa de las empresas de IA

Las empresas de IA tienen dos argumentos legales principales. Primero, afirman que su uso de material con derechos de autor se ampara en la doctrina del «uso justo». Segundo, sostienen que los derechos de autor no son un problema en el entrenamiento de la IA, ya que los sistemas no copian el material, sino que «aprenden» de él, al igual que lo haría un humano.

No obstante, estas compañías suelen ser renuentes a revelar exactamente qué datos disponibles públicamente están utilizando, describiéndolos como un secreto comercial competitivo.

Entonces, derechos de autor vs datos públicos IA

En resumen, la frase «disponible públicamente» puede ser un eufemismo confuso que oculta prácticas cuestionables en la recopilación de datos para entrenar modelos de IA. Mientras las empresas de tecnología buscan fuentes de información de calidad, es crucial que lo hagan respetando los derechos de autor y la privacidad. El futuro de la IA dependerá en gran medida de cómo se aborde este tema en los próximos años.