12,320,916 canciones de YouTube ya están entrenando una IA. Búscate.

Por BCKSTG Editorial·21 de junio de 2026·Última revisión: 21 de junio de 2026

12,320,916 canciones de YouTube ya están en LAION-DISCO-12M, el dataset que entrena modelos de IA. Búscate. Lee lo que Google argumentó.

Los últimos dieciocho meses, los laboratorios de inteligencia artificial vinieron juntando música por todos lados. Algunos anunciaron sus datasets. Otros dejaron que aparecieran en línea por su cuenta. La regla es simple. Si tu música está publicada en público, alguien la considera material para entrenar un modelo.

El recibo más grande que existe ahora se llama LAION-DISCO-12M. La metodología arrancó con un paper de NeurIPS 2023 llamado DISCO-10M, de un equipo de ETH Zürich. La organización alemana LAION corrió la misma receta a escala mayor y publicó el resultado en Hugging Face en noviembre de 2024. Una lista de 12,320,916 canciones referenciadas por ID de YouTube, con título, artista, conteo de vistas y duración para cada una. Unos 91 años de música. Cerca de 750 MB de archivos parquet, licenciados bajo Apache 2.0.

DISCO-12M no es el único dataset público de música en circulación. SLEEPING-DISCO 9M usa la misma receta a escala menor. El buscador de arriba solo revisa DISCO-12M; si no apareces aquí, todavía podrías estar en alguno de los otros.

El dataset no contiene el audio. Contiene los recibos que apuntan al audio en YouTube. Cualquiera con los IDs puede bajar las canciones y entrenar un modelo con ellas. La diferencia importa para los abogados. Para el artista cuyas canciones están en la lista, importa menos. La pista ya está señalada.

→ Busca tu nombre en DISCO-12M ←

Quién carga el golpe

Los artistas independientes. Los sellos grandes tienen departamentos legales. Tú no.

DISCO-12M se armó desde YouTube, que también es la plataforma de distribución, el motor de descubrimiento y la salida real de la mayoría de la música independiente. No hay una manera práctica de salirte.

AI Watchdog de The Atlantic viene siguiendo este tipo de lanzamientos según van saliendo. La cobertura, hasta ahora, está toda en inglés. Su buscador cubre más datasets que el nuestro. Si no apareces en DISCO-12M aquí, revisa el de ellos también.

Lo que Google acaba de argumentar en corte

El caso tiene un trasfondo que vale la pena conocer. En noviembre de 2023, Google DeepMind presentó Lyria y dio crédito a cuatro investigadores como contribuidores principales. En pocos meses los cuatro dejaron Google, fundaron Udio, y la RIAA los demandó en junio de 2024. Udio cerró acuerdo con Universal Music Group en octubre de 2025, comprometiéndose a reconstruir el modelo solo con música licenciada. Google vio cómo demandaban a los mismos que armaron su IA musical por exactamente eso, y aun así lanzó Lyria 3 el 18 de febrero de 2026, dentro de la app Gemini con sus 750 millones de usuarios mensuales.

De esa cronología se cuelga la demanda. La investigación que Google publicó documenta al menos 44 millones de clips y 280,000 horas de música usados para entrenar sus modelos musicales, y según la demanda, el dataset real es bastante mayor.

El lunes 8 de junio de 2026, Google presentó una moción para desestimar la demanda colectiva que un grupo de artistas independientes le interpuso en la Corte de Distrito de los Estados Unidos para el Distrito Norte de Illinois (Kogon v. Google LLC, No. 1:26-cv-02582, presentada el 6 de marzo de 2026 por el bufete Loevy & Loevy). La demanda acusa a Google de usar sus canciones sin permiso para entrenar Lyria 3, su modelo de generación musical. Music Business Worldwide reportó la moción el 10 de junio de 2026, en una nota firmada por Mandy Dalugdug.

El argumento central de Google cabe en una línea. Cuando los demandantes subieron sus canciones a YouTube, le otorgaron a Google una licencia que cubre, entre otras cosas, el entrenamiento de inteligencia artificial. Si el tribunal le da la razón, ese mismo argumento se vuelve la plantilla para cualquiera que entrene un modelo sobre música subida a una plataforma con términos amplios. No solo para DISCO-12M. Para todo lo que venga después.

La discusión legal puede tardar meses. Lo material no. Las canciones ya están en la lista.

¿Qué partes de la letra pequeña en los términos de plataformas como YouTube deberían revisar con más cuidado los artistas independientes para evitar ceder, sin darse cuenta, permisos que permitan usar su música en el entrenamiento o desarrollo de modelos de IA, especialmente cuando esas plataformas son casi indispensables para crecer una carrera musical?

Pregunta abierta. La enviamos a varios abogados especializados en derecho musical. Actualizamos esta nota cuando respondan.

Búscate

Abre la herramienta DISCO-12M, escribe el nombre del artista, y verás cuántas canciones aparecen en el dataset con diez ejemplos que puedes abrir en YouTube. La búsqueda corre sobre nuestro espejo del dataset en Hugging Face. No guardamos consultas. No hay registro.

Antes de que el caso Lyria 3 produzca cualquier respuesta legal, hay tres movimientos concretos.

Uno. Documenta. Captura la búsqueda con fecha. Si una demanda colectiva avanza, ese conteo es prueba útil.

Dos. Pide la baja directo al host. La página del dataset en Hugging Face tiene un botón de community report y un correo de contacto. La remoción se gestiona ahí, no con LAION ni con Google.

Tres. Sigue el caso. Lo que resuelva el tribunal sobre la licencia de YouTube va a marcar la plantilla para el próximo dataset, no para este.

Preguntas Frecuentes

¿Qué es LAION-DISCO-12M?

LAION-DISCO-12M es un dataset público publicado en Hugging Face en noviembre de 2024 por la organización alemana LAION. Lista 12,320,916 canciones por ID de YouTube, con título, artista, conteo de vistas y duración. El dataset no contiene el audio. Contiene las referencias que apuntan a dónde está el audio en YouTube, lo cual es suficiente para que cualquiera baje las canciones y entrene un modelo con ellas. Publicado bajo Apache 2.0.

¿Mi música se usó para entrenar IA?

Abre la búsqueda de DISCO-12M, escribe el nombre del artista, y verás cuántas canciones aparecen en el dataset junto con ejemplos. Aparecer en DISCO-12M no prueba que una empresa de IA específica entrenó con tus canciones, pero el dataset se ha descargado miles de veces y se usa abiertamente en la comunidad de investigación de IA. La pista está señalada.

¿Cómo pido que saquen mi música de DISCO-12M?

La remoción se gestiona en el host del dataset (Hugging Face), no en LAION ni en Google. La página del dataset en Hugging Face tiene un botón de community report y un correo de contacto. Documenta tu caso primero capturando la búsqueda con fecha, por si avanza una demanda colectiva.

¿Qué argumenta exactamente la moción de Google en el caso Kogon?

Google argumenta que cuando los demandantes subieron sus canciones a YouTube, le otorgaron a Google una licencia que cubre, entre otras cosas, el entrenamiento de IA. Si el tribunal le da la razón, el mismo argumento aplica a cualquier empresa que entrene un modelo sobre música subida a una plataforma con términos amplios. No solo DISCO-12M. El caso en la Corte del Distrito Norte de Illinois es Kogon v. Google LLC, No. 1:26-cv-02582, presentado el 6 de marzo de 2026.

¿Qué significa esto para los artistas independientes que dependen de YouTube?

YouTube es la plataforma de distribución, el motor de descubrimiento y la salida real de la mayoría de la música independiente. Los términos de servicio de la plataforma los escribe Google. Si el tribunal acepta la lectura de Google sobre esos términos, salirte del entrenamiento de IA y quedarte en YouTube como plataforma de carrera empiezan a parecer mutuamente excluyentes. La elección no es realmente una elección si irse significa perder la superficie de descubrimiento que alimentó la carrera en primer lugar. Esa es la pregunta de fondo que los artistas en el caso Kogon están probando.

→ Abre la herramienta DISCO-12M ←

← Leer másBCKSTG Playback

¿Tienes una historia para Playback? Mándanos el ángulo.

Pitch a Story