Madrid, España, 6 de junio de 2025. Un grupo de científicos ha demostrado que es posible entrenar grandes modelos de lenguaje (LLM, por sus siglas en inglés) con una base de datos ética, que no perjudica a los titulares de los derechos de autor, con resultados de rendimiento comparables a los de los modelos más populares.
Los LLM que impulsan la inteligencia artificial generativa necesitan enormes cantidades de datos en su entrenamiento para tener un buen rendimiento, y por ello, empresas como Meta, Google y OpenAI han terminado acudiendo a internet e incluso a sus propios productos para obtenerlos.
Esta situación ha generado un debate sobre el uso de documento protegidos por derechos de autor para entrenar esos LLM, en el que unas voces abogan por compensar a quienes están en posesión de esos derechos y otras, por preservar la capacidad de los modelos para aprender de material protegido.
Compensar a los titulares de los derechos de autor costaría miles de millones de dólares, e incluso las denuncias por falta de compensaciones pueden suponer un daños financieros de también miles de millones de dólares, como recogen científicos de 14 instituciones en un reciente estudio, con el que exponen la alternativa de una base de datos ética.
En concreto, indican que han creado una base de datos de dominio público y licencia abierta de 8TB, que han denominado The Common Pile, que recoge datos de 30 fuentes, incluídos investigaciones, audios, libros, enciclopedias, material educativo, código de programación y transcripciones, entre otros.
Para demostrar que es posible entrenar LLM sin perjudicar a los autores y con resultados en línea con los modelos más populares, han entrenado con texto extraído de The Common Pile dos modelos de 7.000 millones de parámetros, de un billón y dos billones de tokens, respectivamente.
Aseguran que los dos modelos ofrecen “un rendimiento competitivo” con modelos como Llama 1 y Llama 2 de 7.000 millones de parámetros. “Nuestros resultados demuestran que The Common Pile no solo es el conjunto de datos más sólido para el preentrenamiento bajo una restricción de licencia abierta, sino que también produce modelos comparables a aquellos entrenados con una cantidad equivalente de datos sin licencia”, afirman en el texto de la investigación publicado en GitHub.
Consideran, además, que la base de datos “representa el primer paso en el camino hacia un ecosistema de modelo de lenguaje más ético, donde el rendimiento no tiene por qué llegar a costa de los derechos de los creadores y la transparencia legal”.
Texto: Portaltic/EP
El cargo Modelos de lenguaje pueden entrenarse con bases de datos éticas, demuestran científicos apareció primero en El Sur Acapulco suracapulco I Noticias Acapulco Guerrero.
Walmart acelera su transformación digital al integrar Subway en su modelo de entrega en 30 minutos, reforzando una estrategia que apuesta por la inmediatez como nueva ventaja competitiva dentro del comercio electrónico.
Merca2.0
La calificación por edades de La Odisea de Christopher Nolan ya se ha desvelado. La esperada película, que llegará a los cines en apenas un mes, contará con una calificación R. Esto quiere decir que será apta para mayores de edad, por lo que los menores deberán acudir siempre acompañados. Es una calificación sorprendente y que, […]S
Hipertextual
El lujo es la posibilidad de cerrar la computadora a media tarde para llevar a su hijo al parque. Éxito es el privilegio de estar presente en su propia vida.
El Financiero
Antes de que llegue la retroexcavadora, antes de que se instale el primer andamio y antes de que comience cualquier actividad de obra, hay un elemento que ya debe estar en el sitio: la caseta.
Lado.mx
Si estás intentando consultar el estatus de tu solicitud o recuperar tu número de folio y te topaste con que la página buscador.becasbenitojuarez.gob.mx/folio está completamente desconectada, no estás solo.
Lado.mx
El mercado mexicano de apuestas en línea está experimentando una transformación acelerada. Lo que hace apenas unos años seguía siendo un nicho con un número limitado de operadores locales se está convirtiendo en un escenario competitivo a gran escala con la participación de marcas globales.
Lado.mx
Staff/RG Moody’s redujo la calificación soberana de México a Baa3, el último escalón del gradoThe post México con capacidad para moderar desbalances fiscales y fortalecer su calificación crediticia appeared first on Desde Puebla.
Desde Puebla
Tenemos hasta el 30 de junio para registrar las líneas. Es decir, 4.3 millones de registros diarios si quieren cumplir con sus proyecciones.
El Financiero
GobCDMX
James Handy, actor de Top Gun: Maverick, murió apuñalado en Los Ángeles; detenido Michael Gledhill como sospechoso del crimen.
SDP Noticias
James Handy, actor de Top Gun: Maverick, murió apuñalado en Los Ángeles; detenido Michael Gledhill como sospechoso del crimen.
SDP Noticias
Taylor Swift presenta su canción para Toy Story 5 I Knew It I Knew YouTaylor Swift lanza su anticipada canción para Toy Story 5, generando emoción entre los fanáticos. Conócela aquí.Este artículo es un contenido original de Monterrey Rock
Monterrey Rock
Taylor Swift estrenó “I Knew It, I Knew You”, la canción original de Toy Story 5. Conoce de qué trata el tema, cómo se relaciona con Jessie y por qué marca un regreso a las raíces country de la cantante.
El Imparcial
El tema acompaña el regreso de la cantante a sus raíces musicales en una producción marcada por la nostalgia y el reencuentro
El Informador
Arturo LópezUn 14 de octubre de 2008, Gilberto Rafael Mora Zambrano nació. A sus 17 años, el originario de Tuxtla Gutiérrez, Chiapas, tiene los ojos puestos de diferentes clubes del mundo. En varios países y en México, lo consideran como una “joya, perla” del futbol nacional.- TE PUEDE INTERESAR: Gilberto Mora apunta altoCoronado en la Co
Excelsior
Gilberto Rafael Mora Zambrano nació un 14 de octubre de 2008, a sus 17 años, el originario de Tuxtla Gutiérrez, Chiapas, tiene los ojos puestos en diferentes clubes del mundo. En varios países y en México, lo consideran como una “joya” del futbol nacional. Coronado en la Copa Oro 2025 y con un Mundial Sub-20 […]The post Gilberto Mo
Plaza de Ármas
Javier Aguirre pone a Gilberto Mora a la altura de Tomás Boy, Benjamín Galindo y Cuauhtémoc Blanco El joven jugador del Club Tijuana ha captado la atención del medio futbolístico DavidTASáb, 15/11/2025 - 07:55
Record
Últimas noticias
Cambios en el Humor Social de los Mexicanos ante el Gobierno
El polémico “Michi” Mejía y su defensa ante acusaciones
Colombia y su historia trágica en los Mundiales de Fútbol
Efemérides del 5 de junio: eventos que marcaron la historia
Senado de EE. UU. aprueba 70 mil millones para inmigración de Trump
Laura Marling lanza un álbum sorpresa de versiones de Raffi
¿Vendrá Trump por toda la ‘4T’?... Los augurios del PT
Patriotas y ¿cómplices?
Prevén viernes fresco y con lluvias en territorio estatal; máxima será de 25°C en la ciudad de Chihuahua
SRE: México no tiene “comunicación oficial” sobre retiro de visas de EE.UU. a gobernadores
El otro Trump no existe
Sánchez descarta el "superdomingo electoral" en el que coincidan las generales con municipales y autonómicas
El base Guillem Ferrando, primera baja del Bàsquet Girona para la próxima temporada
Instagram Plus llega a España con características adicionales de personalización, para las historias y el perfil
Los pinchazos de Francia y España sitúan a Argentina primera