Madrid, España, 6 de junio de 2025. Un grupo de científicos ha demostrado que es posible entrenar grandes modelos de lenguaje (LLM, por sus siglas en inglés) con una base de datos ética, que no perjudica a los titulares de los derechos de autor, con resultados de rendimiento comparables a los de los modelos más populares.
Los LLM que impulsan la inteligencia artificial generativa necesitan enormes cantidades de datos en su entrenamiento para tener un buen rendimiento, y por ello, empresas como Meta, Google y OpenAI han terminado acudiendo a internet e incluso a sus propios productos para obtenerlos.
Esta situación ha generado un debate sobre el uso de documento protegidos por derechos de autor para entrenar esos LLM, en el que unas voces abogan por compensar a quienes están en posesión de esos derechos y otras, por preservar la capacidad de los modelos para aprender de material protegido.
Compensar a los titulares de los derechos de autor costaría miles de millones de dólares, e incluso las denuncias por falta de compensaciones pueden suponer un daños financieros de también miles de millones de dólares, como recogen científicos de 14 instituciones en un reciente estudio, con el que exponen la alternativa de una base de datos ética.
En concreto, indican que han creado una base de datos de dominio público y licencia abierta de 8TB, que han denominado The Common Pile, que recoge datos de 30 fuentes, incluídos investigaciones, audios, libros, enciclopedias, material educativo, código de programación y transcripciones, entre otros.
Para demostrar que es posible entrenar LLM sin perjudicar a los autores y con resultados en línea con los modelos más populares, han entrenado con texto extraído de The Common Pile dos modelos de 7.000 millones de parámetros, de un billón y dos billones de tokens, respectivamente.
Aseguran que los dos modelos ofrecen “un rendimiento competitivo” con modelos como Llama 1 y Llama 2 de 7.000 millones de parámetros. “Nuestros resultados demuestran que The Common Pile no solo es el conjunto de datos más sólido para el preentrenamiento bajo una restricción de licencia abierta, sino que también produce modelos comparables a aquellos entrenados con una cantidad equivalente de datos sin licencia”, afirman en el texto de la investigación publicado en GitHub.
Consideran, además, que la base de datos “representa el primer paso en el camino hacia un ecosistema de modelo de lenguaje más ético, donde el rendimiento no tiene por qué llegar a costa de los derechos de los creadores y la transparencia legal”.
Texto: Portaltic/EP
El cargo Modelos de lenguaje pueden entrenarse con bases de datos éticas, demuestran científicos apareció primero en El Sur Acapulco suracapulco I Noticias Acapulco Guerrero.
El legislador indicó que la solicitud de juicio político la presentó también en contra del Fiscal local, Federico Fernández
Diario.mx
SpaceX, la empresa fundada por el empresario Elon Musk en 2002, debutó hoy la bolsa tecnológica Nasdaq, en Wall Street, con la mayor Oferta Pública Inicial (OPI) de la historia, recaudando más de 75 mil millones de dólares. Así, las acciones de la empresa aeroespacial y de telecomunicaciones cerraron en 151.11 dólares, con un alza […]L
Amexi
Los Sultanes de Monterrey y los Piratas de Campeche ponen en marcha su serie particular en la Liga Mexicana de Béisbol (LMB) con la disputa del Juego 1. Seguir el resultado hoy en directo es de suma importancia para las aspiraciones de ambos clubes, los cuales buscan afianzarse en la parte alta de la tabla …
365scores
Antes de que llegue la retroexcavadora, antes de que se instale el primer andamio y antes de que comience cualquier actividad de obra, hay un elemento que ya debe estar en el sitio: la caseta.
Lado.mx
Si estás intentando consultar el estatus de tu solicitud o recuperar tu número de folio y te topaste con que la página buscador.becasbenitojuarez.gob.mx/folio está completamente desconectada, no estás solo.
Lado.mx
El mercado mexicano de apuestas en línea está experimentando una transformación acelerada. Lo que hace apenas unos años seguía siendo un nicho con un número limitado de operadores locales se está convirtiendo en un escenario competitivo a gran escala con la participación de marcas globales.
Lado.mx
Los Chicago White Sox y Los Angeles Dodgers protagonizan el emocionante Juego 1 de su serie en la MLB, un enfrentamiento de alto calibre en las Grandes Ligas. Seguir el resultado hoy en directo es fundamental para los aficionados que desean conocer cómo arranca esta intensa batalla interligas en el diamante. El encuentro se disputa …
365scores
Integrada por personal especializado, maquinaria pesada, aeronaves, unidades médicas, ingenieros, rescatistas y sistemas de comunicación
Quadratín México
Más de 13 años llevan los vecinos de la colonia STASE batallando con las inundaciones que los dejan sin nada. Este viernes fueron recibidos por la alcaldesa de Guasave, Cecilia Ramírez, tras un año buscando el encuentro.
Los Noticieristas
Claudia Sheinbaum viajará al estado de Colima para realizar una gira de trabajo desde este viernes
SDP Noticias
Milenio
ichiyonokana magazine
La tercera jornada de la Copa del Mundo tendrá cuatro encuentros, donde se destaca el debut de Brasil frente a Marruecos. La agenda futbolera del Mundial 2026 de este sábado 13 de junio trae una cartelera llena de emociones con cuatro partidos que prometen un nivel de primera. Primero, Qatar se mide ante Suiza buscando la campanada en el Grupo B;
BolaVip Mexico
Choque de estilos y urgencia de puntos en el Grupo D
El Informador
Los Socceroos ultiman detalles para lo que será una dura prueba en el inicio de su aventura internacional. Este domingo 14 de junio de 2026, la selección de Australia se medirá ante Turquía sobre el césped del BC Place Stadium de Vancouver. El representativo de la confederación asiática asume este compromiso con la clara premisa …
365scores
Bolavip México presenta los mejores pronósticos para el Brasil vs Marruecos, partido inaugural del Grupo C en el Mundial 2026. Nuestros picksPronósticos: Brasil vs MarruecosCuotas ofrecidas por MelbetPronósticoResultado final: EmpateAl tratarse de un duelo entre los principales candidatos del grupo, se espera un partido equilibrado y con pocas
BolaVip Mexico
La máxima cita del fútbol internacional nos depara uno de los enfrentamientos tácticos más atractivos de la primera fase. Este sábado 13 de junio, la selección de Marruecos se medirá ante su similar de Brasil en un compromiso válido por la fase de grupos de la Copa del Mundo de 2026. Los Leones del Atlas …
365scores
Estados Unidos debutó ante Paraguay tras la tercera ceremonia de apertura del torneo Notipress.- El Estadio Los Ángeles, conocido como SoFi Stadium, cerró el ciclo inaugural del Mundial 2026 con una ceremonia de siete minutos antes del partido entre Estados Unidos y Paraguay. La celebración reunió diversos géneros musicales como pop,
MPV
Biomarcadores epigenéticos orientan prevención personalizada contra deterioro cognitivo Notipress.- La prevención del deterioro cognitivo incorpora herramientas de neurociencia, medicina de precisión y biomarcadores epigenéticos para evaluar cómo los hábitos influyen en la salud cerebral. Este enfoque permite observar factores asociados con
MPV
La agenda incluye la Asamblea General de la OEA, reuniones de jefes de Estado, encuentros ministeriales y foros multilaterales en el marco del Bicentenario del Congreso Anfictiónico de 1826.
Infobae
Últimas noticias
Estados Unidos aplasta a Paraguay en su debut del Mundial 2026
Balean a hombre en la colonia Las Rosas de Salamanca
Organizan kermés con causa para apoyar a “Panchito” en Tarandacuao
NYPD busca al sospechoso que golpeó a aficionado de los Knicks hasta dejarlo en coma cerca del MSG
Ubican a 50 mil en planteles de Media Superior
La lluvia detiene el FIFA Fan Festival, pero no la fiesta de los aficionados en Guadalajara
Lluvia obliga a suspender el primer juego entre Charros y Diablos en Zapopan
Cayó otro de los prófugos más buscados en Santa Fe: estaría vinculado al crimen del nene acribillado en Frontera
La economía dominicana crecería cerca de 4% en 2026, según el FMI
Identifican a siete hondureños entre migrantes rescatados de camión en llamas en Texas
Rose Davis, voz oficial del Azteca: la tica que cumplió un sueño en el Mundial 2026
Lagrimas de Shabat: La más corta de las guerras
Jürgen Klopp es DURO con México tras su debut en el Mundial: ‘Fue simplemente malo a nivel táctico’
El gesto de Shakira en la previa de la apertura Mundial 2026 con Marley y su equipo que terminó de manera abrupta
Quiropráctico señalado de abusar sexualmente de sus pacientes en Tabio fue judicializado