El inesperado talón de Aquiles de la inteligencia artificial, según Apple Infobae

El inesperado talón de Aquiles de la inteligencia artificial, según Apple. Noticias en tiempo real 11 de Junio, 2025 06:20

La ilusión del pensamiento: los modelos de IA de razonamiento colapsan ante problemas complejos, según investigación de Apple (Imagen Ilustrativa Infobae)

Un nuevo estudio de Apple revela que los modelos de inteligencia artificial especializados en razonamiento, conocidos como Large Reasoning Models (LRMs), colapsan completamente cuando enfrentan problemas de complejidad creciente, desafiando la idea de que estos sistemas “piensan” de manera efectiva.

La investigación, publicada apenas días antes del evento WWDC de Apple, analizó el comportamiento de modelos como OpenAI o1 y o3, DeepSeek R1, Claude 3.7 Sonnet Thinking y Google Gemini Flash Thinking. Los resultados representan un jarro de agua fría para los optimistas de la inteligencia artificial general (AGI) y una confirmación para los escépticos, ya que muestran evidencia contundente sobre las limitaciones de la inteligencia de estos modelos.

Según informaron los investigadores de Apple, mientras los LRMs tienen un buen desempeño en matemáticas y programación, cuando se enfrentan a problemas más complejos solo proporcionan “La Ilusión del Pensamiento”.

Este hallazgo podría explicar la cautela de Apple para incorporar masivamente la IA en sus dispositivos, a diferencia de competidores como Google y Samsung, que han priorizado estas capacidades en sus productos.

Apple explica su cautela con la IA tras evidenciar fallos en modelos avanzados frente a problemas difíciles (REUTERS/Laure Andrillon)

Cómo los investigadores evaluaron las habilidades de razonamiento

Para evaluar los modelos de razonamiento, los investigadores de Apple utilizaron puzzles o rompecabezas lógicos clásicos como la Torre de Hanoi. Este puzzle consiste en discos apilados de mayor a menor en una de tres clavijas, y el objetivo es mover todos los discos a la tercera clavija sin colocar nunca un disco más grande sobre uno más pequeño.

Otros puzzles incluían el salto de fichas de damas a espacios vacíos, el problema de cruzar un río (habitualmente planteado con un zorro, una gallina y un saco de grano), y la configuración específica de bloques apilados.

Estos rompecabezas son reconocibles de clases de matemáticas o juegos en línea, ya que representan una forma simple de evaluar la capacidad humana para razonar y resolver problemas. Una vez que se comprende la lógica, solo hay que seguirla incluso cuando aumenta la complejidad, lo que en este caso significa más discos, fichas, animales o bloques. Sin embargo, los investigadores descubrieron que los LRMs comienzan a fallar después de cierto punto.

“Los resultados muestran que todos los modelos de razonamiento exhiben un patrón similar respecto a la complejidad: la precisión disminuye progresivamente a medida que aumenta la complejidad del problema hasta alcanzar un colapso completo (precisión cero) más allá de un umbral de complejidad específico para cada modelo”, escribieron los investigadores. En los resultados mostrados, Claude 3.7 Sonnet + thinking y DeepSeek R1 comienzan a fallar cuando se añade un quinto disco al problema de la Torre de Hanoi. Incluso cuando se aplica más potencia de cálculo a los LRMs, siguen fallando en los puzzles más complejos.

Tres regímenes de complejidad y el colapso de los modelos

La investigación de Apple desafía la idea de que la inteligencia artificial puede razonar como los humanos (Imagen Ilustrativa Infobae)

El estudio identificó tres regímenes de complejidad en el comportamiento de los modelos evaluados. En tareas de baja complejidad, los modelos de lenguaje estándar (LLMs), sin mecanismos de razonamiento explícito, superaron en eficiencia y precisión a los LRMs. Cuando la dificultad aumentó a un nivel medio, los LRMs demostraron una ventaja clara, gracias a su capacidad para generar cadenas de pensamiento más extensas.

Sin embargo, al enfrentar problemas de alta complejidad, ambos tipos de modelos experimentaron un colapso total en su desempeño. Además, los investigadores descubrieron que los modelos de razonamiento inicialmente aplican más “tokens de pensamiento” a medida que aumenta la complejidad, pero sorprendentemente abandonan el esfuerzo en cierto punto.

“Al aproximarse a un umbral crítico —que corresponde estrechamente con su punto de colapso de precisión— los modelos, de manera contraintuitiva, comienzan a reducir su esfuerzo de razonamiento a pesar del aumento en la dificultad del problema”, señala el estudio. Es decir, cuando los problemas se vuelven más difíciles, utilizan menos tokens o “piensan” menos.

Pero, ¿qué sucede cuando se les proporciona a los LRMs las respuestas? La precisión tampoco mejora. Incluso cuando los investigadores incluyeron el algoritmo en las instrucciones, de modo que los modelos solo necesitaban seguir los pasos, continuaron fallando.

Análisis de los procesos intermedios y el fenómeno del “overthinking”

El acceso a las “huellas de razonamiento” permitió a los investigadores examinar cómo evolucionan las soluciones intermedias dentro del proceso de pensamiento de los LRMs. En problemas simples, los modelos suelen encontrar la solución correcta rápidamente, pero continúan explorando alternativas incorrectas, lo que se traduce en un uso ineficiente de recursos computacionales. Este comportamiento, conocido como “overthinking” (pensar demasiado), implica que los modelos generan respuestas redundantes incluso después de haber hallado la solución.

El estudio de Apple genera debate sobre el futuro y las verdaderas capacidades de la inteligencia artificial (Imagen Ilustrativa Infobae)

En tareas de complejidad media, la tendencia se invierte: los modelos exploran, primero, caminos incorrectos y solo después de un proceso extenso logran dar con la respuesta correcta. Cuando la complejidad supera el umbral crítico, los modelos dejan de encontrar soluciones correctas en cualquier punto de su razonamiento, lo que evidencia una incapacidad para autocorregirse y adaptarse a desafíos más exigentes.

Según detalla Apple en su estudio, en el caso de la Torre de Hanoi, los modelos podían ejecutar hasta 100 movimientos correctos en configuraciones de alta dificultad antes de cometer un error, mientras que en el problema de cruzar el río fallaban tras apenas cinco movimientos. Esta disparidad sugiere que la frecuencia con la que los modelos han sido expuestos a ciertos tipos de puzzles durante su entrenamiento puede influir en su desempeño, aunque no explica completamente las limitaciones observadas.

Comparación con el rendimiento humano y limitaciones del estudio

Aunque los resultados pueden parecer desalentadores para quienes esperan una IA capaz de razonar como los humanos, el estudio de Apple aclara que estos hallazgos no implican que los LRMs carezcan por completo de habilidades de razonamiento. Más bien, evidencian que, ante problemas de alta complejidad, su desempeño no supera —y en ocasiones iguala— las limitaciones humanas.

El experto en IA Gary Marcus, citado por el medio original, contextualizó los resultados: “Los humanos (ordinarios) también tienen un conjunto de límites (bien conocidos) que se asemejan a lo que el equipo de Apple descubrió. Muchos (no todos) los humanos fallan en versiones de la Torre de Hanoi con 8 discos”. Marcus añadió: “Lo que muestra el artículo de Apple, fundamentalmente, independientemente de cómo se defina la AGI, es que los LLMs no son sustitutos de buenos algoritmos convencionales bien especificados”.

El estudio reconoce varias limitaciones. Los rompecabezas utilizados representan solo una fracción de los desafíos de razonamiento que se presentan en el mundo real, y la mayoría de los experimentos se realizaron mediante acceso a APIs de modelos cerrados, lo que restringe el análisis de los estados internos de los sistemas. Además, la validación de las soluciones se basó en simuladores deterministas, lo que puede no ser aplicable a dominios menos estructurados.

El futuro del razonamiento en IA

Los propios autores del estudio de Apple subrayan que su trabajo tiene un alcance limitado. Los entornos de puzzles, aunque permiten un control preciso de la complejidad, no reflejan la diversidad de problemas reales ni las demandas de razonamiento basadas en conocimiento. Además, el uso de modelos cerrados y simuladores estructurados restringe la generalización de los hallazgos a otros contextos.

Quedan abiertas preguntas fundamentales sobre la capacidad de los LRMs para desarrollar razonamiento generalizable y sobre las mejoras necesarias para superar las barreras identificadas. El estudio concluye que, si bien los LRMs han avanzado en tareas específicas, enfrentan límites inherentes que desafían la idea de una inteligencia artificial capaz de pensar como los humanos.

La publicación de este estudio justo antes del WWDC de Apple ha generado debate en la comunidad tecnológica.

Mientras empresas como Google y Samsung han apostado por integrar la IA en el centro de sus dispositivos, Apple ha adoptado una postura más cautelosa.

El hallazgo de que los LRMs colapsan ante problemas complejos desafía la narrativa de que la IA está cerca de alcanzar capacidades de razonamiento humano.


Compartir en:
   

 

 

China siembra el pánico con el primer dron con motor a reacción: ahora cualquier barco de guerra será un portaviones. 12:20

El dron chino puede despegar y aterrizar sin necesidad de pista, como un helicóptero, gracias a rotores eléctricos, y es capaz de alcanzar velocidades elevadas usando un motor turborreactor.

Computerhoy.20minutos.es

Fiscalía CDMX asegura inmueble en colonia Roma despojado por Unión Tepito.12:20

En el despliegue, aprehendieron a Roberto Jovany “N”, señalado como supuesto integrante de La Unión Tepito.

24 Horas

Asesinan a menor de 2 años y balean a uno de 8 en ataque armado en tiradero de droga en SLRC, Sonora: hay otras 2 personas muertas. 12:20

San Luis Río Colorado, Sonora.– Un ataque armado ocurrido en un punto de venta de drogas en San Luis Río Colorado dejó como saldo cuatro víctimas, entre ellas un menor de dos años que perdió la vida y un niño de ocho que resultó herido. De acuerdo con las autoridades del Mando Único, el hecho […]The post Asesinan a menor de 2 años

Proyecto Puente

Resultados Liga MX 2025: el mejor rendimiento local en casa.

La acción ya está encendida en el Apertura 2025 y es notable cómo algunos equipos han levantado la mano en su terreno.

Lado.mx

Aportación voluntaria Afore: ¿cómo ahorrar más para tu retiro?.

Tener un plan claro para el retiro es fundamental. Una forma efectiva de incrementar el ahorro es hacer una aportación voluntaria Afore, una alternativa sencilla que ayuda a fortalecer tu patrimonio para el futuro.

Lado.mx

Tipos de lavadoras: descubre cuál es la ideal para tu hogar.

El sonido del tambor girando y la ropa moviéndose dentro de la máquina es una escena común en muchos hogares.

Lado.mx

El Papa León XIV reclama de nuevo el fin de la guerra en Tierra Santa.11:13

27 de agosto de 2025. Al concluir la Audiencia General de este miércoles 29 de agosto, el Papa León XIV reclamó una vez más el fin de la guerra en Tierra Santa, exigiendo la liberación de rehenes, un alto el fuego y el respeto del derecho humanitario.  En su intervenciónLa entrada El Papa León XIV reclama de nuevo el fin de la guerra en Tie

MPV

León XIV erige la nueva Diócesis de Stella Maris en República Dominicana. 11:13

27 de agosto de 2025. El Papa León XIV ha creado una nueva sede episcopal, sufragánea de la Arquidiócesis de Santo Domingo (República Dominicana), que tomará el nombre de Diócesis de Stella Maris y cuyo primer obispo electo es Mons. Manuel Antonio Ruiz.  Hasta ahora, el prelado electo era párrocoLa entrada León XIV erige la nueva Diócesis

MPV

Decomisos de hidrocarburos suman más de 77 millones de litros, en 2025: ANAM. 11:13

Los decomisos de hidrocarburos en el país durante 2025 superaron los 77 millones de litros, de acuerdo con los resultados presentados por la Agencia Nacional de Aduanas de México (ANAM).

Unomasuno

Sener apuesta por construir dos centrales termosolares .03:10

Logros. Sener resaltó que las plantas ayudarán a cumplir con la meta de que el 35% de la energía provenga de fuentes renovables.

24 Horas

guardians - rays

Blue Jays vuelan en estado de gracia… llegan a 9 victorias seguidas en MLB. 08 de Julio, 2025 01:35

Ariel VelázquezA mediados de mayo parecía que Toronto estaba destinado a mirar la postemporada desde lejos. A ocho juegos del liderato, la ofensiva no carburaba y el pitcheo titubeaba. Pero algo cambió. Ahora, Blue Jays vive su mejor momento de la temporada: han ganado nueve juegos consecutivos, igualando la tercera mejor racha en la historia de

Excelsior

Guardians feel "urgency" to win heading into series vs. Rays . 25 de Agosto, 2025 07:27

A 10-game losing streak from June 26 through July 6 put the Cleveland Guardians" postseason chances on the rocks.,Going 1-5 on a trip against the Ariz

Deadspin

MLB Bet Picks Today: Tuesday August 26th"s Expert Betting Predictions . 09:17

Looking for MLB betting edges? Check out our Guardians vs. Rays first-five under and Braves moneyline pick vs. Marlins with pitching matchups and ROI

Deadspin

everton fc

Copa Carabao: Man Utd, Everton trabaja con las dos rondas disponibles para ver en vivo en Sky Sports+ | Noticias de fútbol. 02:50

Cada corbata de la Copa Carabao está directamente en Sky Sports+ nuevamente en 2025/26, y hay 23 rondas de la segunda ronda que tendrán lugar esta semana. Manchester United se enfrentará al torneo de Grimsby Town, mientras que Mansfield será solo el segundo competidor con el nuevo estadio de Everton Hill Dickinson. Bournemouth celebrará a R

Mas Cipolleti

Independiente identifica a agresores del partido de la Copa Sudamericana. 03:02

Independiente asegura que se mantendrá en coordinación con autoridades para hallar a los culpables; la U de Chile hizo un llamado a la paz.

24 Horas

La República Irlandesa: Seamus Coleman deja los clasificatorios de la Copa Mundial contra Hungría y Armenia | Noticias de fútbol. 06:10

El Capitán Everton Seamus Coleman no fue nombrado en el equipo de la República de Irlanda para el comienzo de sus niveles de la Copa Mundial contra Hungría y Armenia el próximo mes. El propietario de Irlanda Heimir Hallgrimsson describió a Coleman como un “líder en este equipo” después de que el veterano defensor global …

Mas Cipolleti

tris de hoy

¿Ganaste el Tris? Descubre aquí los resultados de los sorteos de hoy 2 de agosto. 02 de Agosto, 2025 23:20

El sorteo de Tris se realiza cinco ocasiones al día, desde las 13:00 horas y hasta las 21:00 horas, de lunes a domingo. Esta es la combinación ganadora de los sorteos de hoy

Infobae

¿Eres el afortunado ganador de alguno de los sorteos de Tris?. 03 de Agosto, 2025 22:50

El sorteo de Tris se celebra cinco ocasiones al día, desde las 13:00 horas y hasta las 21:00 horas, de lunes a domingo. Estos son los resultados de los sorteos de hoy

Infobae

Pronósticos: todos los números ganadores del Tris del 4 de agosto. 04 de Agosto, 2025 23:15

Enseguida los resultados de todos los sorteos de Tris dados a conocer por la Lotería Nacional y descubra si ha sido uno de los ganadores

Infobae

La información agregada y la responsabilidad de esta, pertenece a los sitios que lo publican. Lado.mx solo se encarga de publicarla.