Madrid, España, 6 de junio de 2025. Un grupo de científicos ha demostrado que es posible entrenar grandes modelos de lenguaje (LLM, por sus siglas en inglés) con una base de datos ética, que no perjudica a los titulares de los derechos de autor, con resultados de rendimiento comparables a los de los modelos más populares.
Los LLM que impulsan la inteligencia artificial generativa necesitan enormes cantidades de datos en su entrenamiento para tener un buen rendimiento, y por ello, empresas como Meta, Google y OpenAI han terminado acudiendo a internet e incluso a sus propios productos para obtenerlos.
Esta situación ha generado un debate sobre el uso de documento protegidos por derechos de autor para entrenar esos LLM, en el que unas voces abogan por compensar a quienes están en posesión de esos derechos y otras, por preservar la capacidad de los modelos para aprender de material protegido.
Compensar a los titulares de los derechos de autor costaría miles de millones de dólares, e incluso las denuncias por falta de compensaciones pueden suponer un daños financieros de también miles de millones de dólares, como recogen científicos de 14 instituciones en un reciente estudio, con el que exponen la alternativa de una base de datos ética.
En concreto, indican que han creado una base de datos de dominio público y licencia abierta de 8TB, que han denominado The Common Pile, que recoge datos de 30 fuentes, incluídos investigaciones, audios, libros, enciclopedias, material educativo, código de programación y transcripciones, entre otros.
Para demostrar que es posible entrenar LLM sin perjudicar a los autores y con resultados en línea con los modelos más populares, han entrenado con texto extraído de The Common Pile dos modelos de 7.000 millones de parámetros, de un billón y dos billones de tokens, respectivamente.
Aseguran que los dos modelos ofrecen “un rendimiento competitivo” con modelos como Llama 1 y Llama 2 de 7.000 millones de parámetros. “Nuestros resultados demuestran que The Common Pile no solo es el conjunto de datos más sólido para el preentrenamiento bajo una restricción de licencia abierta, sino que también produce modelos comparables a aquellos entrenados con una cantidad equivalente de datos sin licencia”, afirman en el texto de la investigación publicado en GitHub.
Consideran, además, que la base de datos “representa el primer paso en el camino hacia un ecosistema de modelo de lenguaje más ético, donde el rendimiento no tiene por qué llegar a costa de los derechos de los creadores y la transparencia legal”.
Texto: Portaltic/EP
El cargo Modelos de lenguaje pueden entrenarse con bases de datos éticas, demuestran científicos apareció primero en El Sur Acapulco suracapulco I Noticias Acapulco Guerrero.
“(El AMLO de antes) exigía respeto a la oposición, defendía que nadie debía concentrar poder”.
El Financiero
Infobae
La Universidad Nacional Abierta y a Distancia (UNAD) y la multinacional Cisco abrieron una convocatoria con 10.000 cupos para cursos gratuitos en áreas tecnológicas de alta demanda laboral
Infobae
Antes de que llegue la retroexcavadora, antes de que se instale el primer andamio y antes de que comience cualquier actividad de obra, hay un elemento que ya debe estar en el sitio: la caseta.
Lado.mx
Si estás intentando consultar el estatus de tu solicitud o recuperar tu número de folio y te topaste con que la página buscador.becasbenitojuarez.gob.mx/folio está completamente desconectada, no estás solo.
Lado.mx
El mercado mexicano de apuestas en línea está experimentando una transformación acelerada. Lo que hace apenas unos años seguía siendo un nicho con un número limitado de operadores locales se está convirtiendo en un escenario competitivo a gran escala con la participación de marcas globales.
Lado.mx
Juegos Once publicó la combinación ganadora del sorteo 1 de las 10:00 horas. Tenemos los números ganadores aquí mismo.
Infobae
GobCDMX
ESPN Deportes
Taylor Swift presenta su canción para Toy Story 5 I Knew It I Knew YouTaylor Swift lanza su anticipada canción para Toy Story 5, generando emoción entre los fanáticos. Conócela aquí.Este artículo es un contenido original de Monterrey Rock
Monterrey Rock
Conagua y Meteored prevén mar de fondo, calor extremo, así como fuertes vientos con riesgo de tolvaneras para este fin de semana
Debate.com.mx
La CNPC emite alerta por lluvias intensas (75-150 mm) en Jalisco, Puebla, Veracruz, Oaxaca, Chiapas, Coahuila y Nuevo León este 3 y 4 de junio de 2026. Conoce las recomendaciones de Protección Civil.
Debate.com.mx
La Conagua alerta sobre el temporal de lluvias en México y la formación de un potencial ciclón frente a Michoacán y Guerrero. Revisa el mapa de estados afectados.
Debate.com.mx
James Handy, actor de Top Gun: Maverick, murió apuñalado en Los Ángeles; detenido Michael Gledhill como sospechoso del crimen.
SDP Noticias
James Handy, actor de Top Gun: Maverick, murió apuñalado en Los Ángeles; detenido Michael Gledhill como sospechoso del crimen.
SDP Noticias
Roberto Velasco sostuvo una llamada con el canciller italiano Antonio Tajani en el marco de los 151 años de relaciones diplomáticas entre México e ItaliaLa entrada México e Italia refuerzan diálogo diplomático y comercial aparece primero en López-Dóriga Digital.
Lopezdoriga.com
A casi dos meses de que Roberto Velasco Álvarez fuera designado por la presidenta Claudia Sheinbaum, la SRE anunció una serie de cambios en cargos directivos de la dependencia, incluidos nombramientos en diversas áreas.
Zeta Tijuana
La SRE realiza 18 cambios en su estructura para fortalecer la política exterior y proteger a los mexicanos en el extranjero.
El Congresista
Últimas noticias
A.A. Williams presenta «Solstice», su nuevo álbum, disponible a través de RPM
Un dron marítimo explotó en un puerto rumano del Mar Negro y las autoridades alertan: “Podría haber más”
Comunidades extranjeras en México: aficionados de Colombia, Panamá y Corea disfrutan del Mundial 2026 en la CDMX
¿Una sola inyección para controlar el colesterol de por vida? Un estudio señala que podría ser posible
El español Adrián Fernández, descalificado de todos los grandes premios menos Italia
Ahora viene la Línea 6
Ha vuelto*
El Pittsburgh Concert Chorale en un concierto excepcional y gratuito en La Madeleine
El Éxito de Streaming de la Obra Maestra de Gore Verbinski
¡Noche de fiesta escarlata en el Estadio Alfredo Harp Helú!
DIM empató con Leones en la Copa BetPlay
Cancelados los conciertos de Travis Scott y Kanye West en Italia
Sin carne, pero con todo el sabor: el pozole y las enchiladas también pueden ser veganos
Estos son los mejores carros nuevos por menos de $40,000
Un dron ucraniano impacta contra el edificio de una de las turbinas de la central nuclear de Zaporiyia