Cómo una IA elevó su tasa de victorias al 82% en Batalla Naval Infobae

Cómo una IA elevó su tasa de victorias al 82% en Batalla Naval . Noticias en tiempo real 06 de Junio, 2026 08:30

Un estudio del MIT y Harvard mostró que la inteligencia artificial mejora cuando aprende a investigar y a formular preguntas útiles en entornos inciertos (Imagen Ilustrativa Infobae)

Un equipo del Instituto Tecnológico de Massachusetts (MIT) y de la Universidad de Harvard mejoraron la forma en que un modelo de inteligencia artificial formula preguntas en el juego Batalla Naval y su tasa de victorias contra humanos subió del 8% al 82%, un avance que podría aplicarse a tareas más inciertas como el diagnóstico médico y el descubrimiento científico, informó el portal tecnológico TechXplore.

El trabajo, presentado en abril en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR), parte de una dificultad concreta de los modelos de lenguaje: suelen responder bien a consultas complejas, pero no siempre saben investigar un problema cuando deben explorar muchas posibilidades en entornos inciertos. Ese obstáculo pesa especialmente en áreas donde no alcanza con contestar, sino que hay que buscar información útil paso a paso.

Para medir ese problema, investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT y de la Escuela de Ingeniería y Ciencias Aplicadas de la Universidad de Harvard usaron Batalla Naval como banco de pruebas. El juego ya había sido utilizado por científicos cognitivos para estudiar cómo los humanos buscan información, razón por la que el equipo lo eligió para analizar cómo lo hacen los modelos de lenguaje.

Esta infografía ilustra cómo la inteligencia artificial del MIT y Harvard multiplicó su tasa de victorias en Batalla Naval del 8% al 82% al mejorar la formulación de preguntas (Imagen Ilustrativa Infobae)

Enseñar a los modelos a preguntar mejor

El equipo diseñó una versión en lenguaje natural llamada batalla naval colaborativa, en la que un participante actúa como capitán y formula preguntas sobre la ubicación de barcos ocultos, mientras otro cumple el papel de observador y responde sí o no en tiempo real.

Más de 40 personas jugaron esa versión y sus preguntas y respuestas sirvieron para construir BattleshipQA, un conjunto de datos que funcionó como referencia para evaluar modelos de frontera, como GPT-5, y otros más pequeños, como Llama 4 Scout.

Las pruebas mostraron que, sin entrenamiento previo específico, los mejores modelos podíanterminar la partida en menos turnos que los humanos, aunque los sistemas pequeños resultaban mucho menos racionales. El problema principal no era solo responder, sino formular preguntas útiles.

Para corregirlo, los investigadores incorporaron un método conocido como inferencia de Monte Carlo, que estima la probabilidad de que cada respuesta sea correcta entre distintas opciones. Con ese enfoque, los modelos comenzaron a elegir preguntas que revelaban más información sobre la posición de los barcos.

El caso más marcado fue el de Llama 4 Scout: antes de ese ajuste solo superaba a humanos en el 8% de las partidas y después llegó al 82%. Ese mismo enfoque le permitió superar a GPT-5 con un costo de cerca del 1% del modelo de vanguardia.

“Los modelos de lenguaje actuales están optimizados principalmente para responder a consultas complejas, pero no está tan claro si aprenden a formular buenas preguntas por sí mismos”, señaló Gabriel Grand, estudiante de doctorado e investigador del CSAIL y autor principal del artículo.

“Nuestro trabajo demuestra que formular preguntas informativas depende de la capacidad de predecir y simular el mundo. Descubrimos que cuando les damos a los agentes acceso a un ‘modelo del mundo’, formulan mejores preguntas y realizan descubrimientos de manera más eficiente”, agregó Grand.

La inferencia de Monte Carlo permitió que los modelos de inteligencia artificial eligieran preguntas más informativas sobre la posición de los barcos (Imagen Ilustrativa Infobae)

Convertir preguntas en código

El equipo también detectó una segunda brecha entre humanos y modelos: contestar con exactitud las preguntas del juego. GPT-5 se comportó como un observador fiable, pero los sistemas pequeños tendían a equivocarse al indicar dónde estaban los barcos.

La corrección consistió en traducir cada pregunta del capitán a código en Python, de modo que el observador pudiera verificarla mediante instrucciones explícitas. Si la pregunta era si había un barco en una zona concreta, el sistema ejecutaba una búsqueda rápida sobre ese espacio y comprobaba el ancho de la pieza digital.

Ese cambio elevó la precisión media en un 15%. En casos concretos, GPT-4o-mini mejoró casi un 30% y Claude 4 Opus sumó ocho puntos, de acuerdo con el medio.

“El sector ha tenido mucho éxito con las estrategias de ‘autoformalización’, en las que los modelos de lenguaje generan código para verificar sus soluciones”, indicó Jacob Andreas, profesor asociado de ingeniería eléctrica y ciencias de la computación e investigador principal de CSAIL.

El profesor sostuvo además que el resultado abre la posibilidad de usar estas técnicas para generar mejores soluciones desde el inicio y extenderlas a la programación y a la resolución de problemas matemáticos.

El mismo enfoque se probó después en el juego ¿Quién es quién?, donde los modelos debían descartar cien opciones hasta identificar un personaje oculto. Allí, Llama 4 Scout pasó del 30% al 72% de aciertos, mientras GPT-4o avanzó del 62% al 90%; en cada partida, GPT-5 actuó como observador para asegurar respuestas más precisas.

La traducción de preguntas a código en Python aumentó la precisión de las respuestas de la IA y redujo errores en modelos pequeños (Imagen Ilustrativa Infobae)

Límites actuales y próximos pasos

Pese a esos avances, los investigadores señalaron que los modelos todavía tienen dificultades para responder preguntas complejas en comparación con los humanos. Valerio Pepe, investigador de OpenAI, graduado reciente de Harvard y coautor del estudio, sostuvo que GPT-5 puede vencer al jugador promedio de Batalla Naval y mejora ligeramente con estos métodos, pero que los jugadores expertos aún son difíciles de superar para todos los modelos.

El portal detalló que los autores interpretaron los resultados como una señal de que los agentes de IA todavía tienen potencial sin explotar para problemas de “aguja en un pajar”, es decir, escenarios en los que deben recorrer un espacio inmenso de opciones para encontrar una solución excepcional. El artículo menciona como ejemplo la identificación de la estructura molecular de un compuesto.

Aun así, los investigadores advirtieron que la batalla naval colaborativa aún es una prueba relativamente sencilla y que quieren llevar los modelos a entornos más complejos, donde deban considerar muchas más alternativas. Grand también prevé experimentos de colaboración entre humanos y sistemas de IA, además de ajustes finos en simulaciones de juegos y un uso mayor de capacidad de cómputo para ampliar la inferencia.

“A medida que los sistemas de IA se vuelven más autónomos, los problemas más difíciles resultan ser de índole social: encontrar puntos en común, resolver malentendidos y adaptarse a diferentes interlocutores con el tiempo”, señaló Robert Hawkins, profesor adjunto de lingüística en la Universidad de Stanford, que no participó en el artículo.

Hawkins añadió que el estudio “capta con elegancia estos fenómenos en un entorno colaborativo controlado y presenta argumentos convincentes de que el verdadero cuello de botella para los agentes de IA no es solo el cálculo de preguntas óptimas, sino el razonamiento pragmático necesario para sacar el máximo provecho de sus respuestas”.


Compartir en:
   

 

 

Perú vs España: Horario y datos del amistoso internacional. 16:25

Perú vs España se enfrentan en un amistoso internacional que marcará la última prueba del conjunto dirigido por Luis de la Fuente antes del inicio de la Copa del Mundo. La selección española buscará despedirse con una victoria y ratificar las buenas sensaciones que la posicionan como una de las grandes candidatas a pelear por …

365scores

Arrojan a una mujer a los vagones del Metro de Monterrey; policías evitan linchamiento del agresor.16:43

Una mujer resultó lesionada esta mañana, en la estación sendero de la línea, dos del metro de Monterrey,

Punto Cero Noticias

Indio encuentra en la realidad laboral una nueva narrativa para acercarse al consumidor mexicano. 16:21

El trabajo, los traslados y el emprendimiento comienzan a desplazar al entretenimiento como fuente de historias para algunas marcas como Indio.

Expansión

Casetas de obra: la infraestructura temporal que toda construcción en La Laguna necesita desde el día uno.

Antes de que llegue la retroexcavadora, antes de que se instale el primer andamio y antes de que comience cualquier actividad de obra, hay un elemento que ya debe estar en el sitio: la caseta.

Lado.mx

¿El buscador de folios de Becas Benito Juárez Folio está caido? Esto es lo que pasa.

Si estás intentando consultar el estatus de tu solicitud o recuperar tu número de folio y te topaste con que la página buscador.becasbenitojuarez.gob.mx/folio está completamente desconectada, no estás solo.

Lado.mx

Los casinos en línea internacionales están transformando el mercado del entretenimiento en México.

El mercado mexicano de apuestas en línea está experimentando una transformación acelerada. Lo que hace apenas unos años seguía siendo un nicho con un número limitado de operadores locales se está convirtiendo en un escenario competitivo a gran escala con la participación de marcas globales.

Lado.mx

Exclusivo: los argumentos de Alpine para recuperar el podio de Gasly en Mónaco y las novedades del caso.14:56

Olé accedió a cómo será la estrategia de la escudería francesa para apoyar la Solicitud de Revisión presentada ante la FIA. ¿Qué sostienen y qué cuestionan?

Olé.com.ar

Suiza comenzó a excavar un foso de 27 metros de profundidad y con el largo de dos campos de fútbol: todo para una batería gigante . 15:44

Los paneles solares en techos, campos, desiertos y hasta por encima de los ríos son la muestra más visible de la transición energética. Sin embargo, surge un cuestionamiento sobre cómo gestionar la producción de energía. Es decir, la capacidad de guardarla cuando sobra y usarla

Xataka México

Alineación confirmada de Atlético Nacional vs Junior: el Verdolaga va con todo por la remontada en la final de la Liga BetPlay. 15:30

Atlético Nacional ya tiene definida su alineación para la gran final de vuelta de la Liga BetPlay 2026. El conjunto verdolaga recibe a Junior de Barranquilla en un estadio Atanasio Girardot que promete lucir completamente repleto, con la ilusión de protagonizar una remontada histórica y conquistar un nuevo título del fútbol colombiano. La der

365scores

blue jays - phillies

Repiten como los mejores timoneles del beisbol. 11 de Noviembre, 2025 20:00

Ariel VelázquezEn una temporadadonde los Dodgers rompieron la rutina del beisbol con el primer bicampeonato en más de dos décadas en MLB, Pat Murphy y Stephen Vogt siguieron el ritmo de la rareza. El estratega de los Brewers y el de los Guardians repitieron como Mánagers del Año, un logro reservado para quienes entienden que ganar una vez es m

Excelsior

Mejores pitchers en la agencia libre de MLB. 29 de Noviembre, 2025 14:30

Ariel VelázquezEl contrato por 210 millones de dólares que llevó a Dylan Cease a los Blue Jays encendió temprano el invierno de las Grandes Ligas y fijó un parámetro claro para el negocio de los abridores. El acuerdo no sólo fue el primero de peso en la agencia libre, también redefinió expectativas en un mercado con nombres de alto impact

Excelsior

Five Teams That Could Challenge Los Angeles Dodgers This Year . 26 de Marzo, 2026 10:37

The Dodgers are MLB favorites again, but teams like the Blue Jays, Yankees, and Phillies could challenge their dominance in 2026.

Deadspin

guardians - yankees

Ramírez y los Guardians le dan de palos a Cole y aseguran la serie ante los Yankees. 03 de Junio, 2026 21:25

José Ramírez conecta uno de los tres cuadrangulares de los Guardians ante Cole y lidera al equipo de Cleveland a la victoria sobre los Yankees

Tribuna

Código de bono bet365 | México | Junio 2026. 09:36

En 2026, activa el código de bono bet365 México para acceder a los beneficios más exclusivos dentro de este sitio de apuestas. Actualmente, bet365 no está disponible en México. Una alternativa confiable y accesible es Codere, que ofrece un código promocional activo y apuestas legales. Este código de bono Codere México es “VIPC…”, y te

BolaVip Mexico

Código promocional 1xBet “BOLAMAX”: gana hasta $31,000 MXN en Junio 2026|. 09:48

Utiliza el código promocional BOLAMAX en 1xbet en Junio 2026, para recibir un bono de bienvenida de hasta $31,000 MXN en apuestas deportivas. El código promocional 1xbet vigentes es BOLAMAX en 2026. Con él, recibes un bono que duplica cada uno de tus primeros cuatro depósitos hasta $31,000 MXN para apuestas deportivas o hasta $40,000 MXN para c

BolaVip Mexico

knicks - spurs

James Harden supera a Shaquille O"Neal y es 9º en puntos históricos de la NBA. 13 de Enero, 2026 09:59

James Harden supera a Shaquille O"Neal y es 9º en puntos históricos de la NBA El escolta de los Clippers terminó con 32 puntos en la victoria de los Clippers por 117-109 contra los Hornets aspindolaMar, 13/01/2026 - 09:13 James

Record

Shai superó a Jokic, amargo aniversario de Doncic y Detroit fue implacable. 02 de Febrero, 2026 07:37

En la jornada del domingo en la NBA, ganaron Thunder, Knicks, Pistons, Celtics, Heat, Raptors, Clippers, Spurs, Cavaliers y Wizards.

ESPNdeportes.com

Best NBA Betting Picks for Wednesday Feb. 11th Slate . 11 de Febrero, 2026 09:43

Best NBA bets for Wednesday’s 14-game slate, including Knicks vs. 76ers, Pistons vs. Raptors, and Spurs vs. Warriors.

Deadspin