Un nuevo estudio de Apple revela que los modelos de inteligencia artificial especializados en razonamiento, conocidos como Large Reasoning Models (LRMs), colapsan completamente cuando enfrentan problemas de complejidad creciente, desafiando la idea de que estos sistemas “piensan” de manera efectiva.
La investigación, publicada apenas días antes del evento WWDC de Apple, analizó el comportamiento de modelos como OpenAI o1 y o3, DeepSeek R1, Claude 3.7 Sonnet Thinking y Google Gemini Flash Thinking. Los resultados representan un jarro de agua fría para los optimistas de la inteligencia artificial general (AGI) y una confirmación para los escépticos, ya que muestran evidencia contundente sobre las limitaciones de la inteligencia de estos modelos.
Según informaron los investigadores de Apple, mientras los LRMs tienen un buen desempeño en matemáticas y programación, cuando se enfrentan a problemas más complejos solo proporcionan “La Ilusión del Pensamiento”.
Este hallazgo podría explicar la cautela de Apple para incorporar masivamente la IA en sus dispositivos, a diferencia de competidores como Google y Samsung, que han priorizado estas capacidades en sus productos.
Para evaluar los modelos de razonamiento, los investigadores de Apple utilizaron puzzles o rompecabezas lógicos clásicos como la Torre de Hanoi. Este puzzle consiste en discos apilados de mayor a menor en una de tres clavijas, y el objetivo es mover todos los discos a la tercera clavija sin colocar nunca un disco más grande sobre uno más pequeño.
Otros puzzles incluían el salto de fichas de damas a espacios vacíos, el problema de cruzar un río (habitualmente planteado con un zorro, una gallina y un saco de grano), y la configuración específica de bloques apilados.
Estos rompecabezas son reconocibles de clases de matemáticas o juegos en línea, ya que representan una forma simple de evaluar la capacidad humana para razonar y resolver problemas. Una vez que se comprende la lógica, solo hay que seguirla incluso cuando aumenta la complejidad, lo que en este caso significa más discos, fichas, animales o bloques. Sin embargo, los investigadores descubrieron que los LRMs comienzan a fallar después de cierto punto.
“Los resultados muestran que todos los modelos de razonamiento exhiben un patrón similar respecto a la complejidad: la precisión disminuye progresivamente a medida que aumenta la complejidad del problema hasta alcanzar un colapso completo (precisión cero) más allá de un umbral de complejidad específico para cada modelo”, escribieron los investigadores. En los resultados mostrados, Claude 3.7 Sonnet + thinking y DeepSeek R1 comienzan a fallar cuando se añade un quinto disco al problema de la Torre de Hanoi. Incluso cuando se aplica más potencia de cálculo a los LRMs, siguen fallando en los puzzles más complejos.
El estudio identificó tres regímenes de complejidad en el comportamiento de los modelos evaluados. En tareas de baja complejidad, los modelos de lenguaje estándar (LLMs), sin mecanismos de razonamiento explícito, superaron en eficiencia y precisión a los LRMs. Cuando la dificultad aumentó a un nivel medio, los LRMs demostraron una ventaja clara, gracias a su capacidad para generar cadenas de pensamiento más extensas.
Sin embargo, al enfrentar problemas de alta complejidad, ambos tipos de modelos experimentaron un colapso total en su desempeño. Además, los investigadores descubrieron que los modelos de razonamiento inicialmente aplican más “tokens de pensamiento” a medida que aumenta la complejidad, pero sorprendentemente abandonan el esfuerzo en cierto punto.
“Al aproximarse a un umbral crítico —que corresponde estrechamente con su punto de colapso de precisión— los modelos, de manera contraintuitiva, comienzan a reducir su esfuerzo de razonamiento a pesar del aumento en la dificultad del problema”, señala el estudio. Es decir, cuando los problemas se vuelven más difíciles, utilizan menos tokens o “piensan” menos.
Pero, ¿qué sucede cuando se les proporciona a los LRMs las respuestas? La precisión tampoco mejora. Incluso cuando los investigadores incluyeron el algoritmo en las instrucciones, de modo que los modelos solo necesitaban seguir los pasos, continuaron fallando.
El acceso a las “huellas de razonamiento” permitió a los investigadores examinar cómo evolucionan las soluciones intermedias dentro del proceso de pensamiento de los LRMs. En problemas simples, los modelos suelen encontrar la solución correcta rápidamente, pero continúan explorando alternativas incorrectas, lo que se traduce en un uso ineficiente de recursos computacionales. Este comportamiento, conocido como “overthinking” (pensar demasiado), implica que los modelos generan respuestas redundantes incluso después de haber hallado la solución.
En tareas de complejidad media, la tendencia se invierte: los modelos exploran, primero, caminos incorrectos y solo después de un proceso extenso logran dar con la respuesta correcta. Cuando la complejidad supera el umbral crítico, los modelos dejan de encontrar soluciones correctas en cualquier punto de su razonamiento, lo que evidencia una incapacidad para autocorregirse y adaptarse a desafíos más exigentes.
Según detalla Apple en su estudio, en el caso de la Torre de Hanoi, los modelos podían ejecutar hasta 100 movimientos correctos en configuraciones de alta dificultad antes de cometer un error, mientras que en el problema de cruzar el río fallaban tras apenas cinco movimientos. Esta disparidad sugiere que la frecuencia con la que los modelos han sido expuestos a ciertos tipos de puzzles durante su entrenamiento puede influir en su desempeño, aunque no explica completamente las limitaciones observadas.
Aunque los resultados pueden parecer desalentadores para quienes esperan una IA capaz de razonar como los humanos, el estudio de Apple aclara que estos hallazgos no implican que los LRMs carezcan por completo de habilidades de razonamiento. Más bien, evidencian que, ante problemas de alta complejidad, su desempeño no supera —y en ocasiones iguala— las limitaciones humanas.
El experto en IA Gary Marcus, citado por el medio original, contextualizó los resultados: “Los humanos (ordinarios) también tienen un conjunto de límites (bien conocidos) que se asemejan a lo que el equipo de Apple descubrió. Muchos (no todos) los humanos fallan en versiones de la Torre de Hanoi con 8 discos”. Marcus añadió: “Lo que muestra el artículo de Apple, fundamentalmente, independientemente de cómo se defina la AGI, es que los LLMs no son sustitutos de buenos algoritmos convencionales bien especificados”.
El estudio reconoce varias limitaciones. Los rompecabezas utilizados representan solo una fracción de los desafíos de razonamiento que se presentan en el mundo real, y la mayoría de los experimentos se realizaron mediante acceso a APIs de modelos cerrados, lo que restringe el análisis de los estados internos de los sistemas. Además, la validación de las soluciones se basó en simuladores deterministas, lo que puede no ser aplicable a dominios menos estructurados.
Los propios autores del estudio de Apple subrayan que su trabajo tiene un alcance limitado. Los entornos de puzzles, aunque permiten un control preciso de la complejidad, no reflejan la diversidad de problemas reales ni las demandas de razonamiento basadas en conocimiento. Además, el uso de modelos cerrados y simuladores estructurados restringe la generalización de los hallazgos a otros contextos.
Quedan abiertas preguntas fundamentales sobre la capacidad de los LRMs para desarrollar razonamiento generalizable y sobre las mejoras necesarias para superar las barreras identificadas. El estudio concluye que, si bien los LRMs han avanzado en tareas específicas, enfrentan límites inherentes que desafían la idea de una inteligencia artificial capaz de pensar como los humanos.
La publicación de este estudio justo antes del WWDC de Apple ha generado debate en la comunidad tecnológica.
Mientras empresas como Google y Samsung han apostado por integrar la IA en el centro de sus dispositivos, Apple ha adoptado una postura más cautelosa.
El hallazgo de que los LRMs colapsan ante problemas complejos desafía la narrativa de que la IA está cerca de alcanzar capacidades de razonamiento humano.
Ministerio Público acudió a antigua sede del Senado para tomar las declaraciones de Noroña y su colaborador tras pleito con "Alito".
24 Horas
Hermosillo, Sonora.- Poco más de 60 paquetes con bolsas de marihuana y 518 dispositivos electrónicos, conocidos como ‘vapeadores’ fueron asegurados en una empresa de paquetería de Hermosillo, Sonora. De acuerdo a la información compartida por la Guardia Nacional, agentes de la institución aseguraron 63 paquetes con narcóticos, en
Proyecto Puente
El "regreso a clases" y la vuelta a la rutina de septiembre serán mucho más fáciles con esta increíble lista de estrenos, y el catálogo de Netflix, como cada mes, se renueva con una gran variedad de series, películas y documentales para todos los gustos. Desde el esperado regreso de Jude Law, hasta la nueva serie del creador de La
El Siglo de Torreón
La acción ya está encendida en el Apertura 2025 y es notable cómo algunos equipos han levantado la mano en su terreno.
Lado.mx
Tener un plan claro para el retiro es fundamental. Una forma efectiva de incrementar el ahorro es hacer una aportación voluntaria Afore, una alternativa sencilla que ayuda a fortalecer tu patrimonio para el futuro.
Lado.mx
El sonido del tambor girando y la ropa moviéndose dentro de la máquina es una escena común en muchos hogares.
Lado.mx
Confirmó que habrá relevos en la Fiscalía mediante convocatorias para incentivar la profesionalización, sin designaciones a modo, habiéndose abstenido de hacer nombramientos de personal de confianza en 21 subdireccionesLa entrada Reestructuración en puerta; el fiscal Carlos Torres Piña confirma rezago se publicó primero en La Voz de Michoac
La Voz de Michoacán
Ministerio Público acudió a antigua sede del Senado para tomar las declaraciones de Noroña y su colaborador tras pleito con "Alito".
24 Horas
Alito Moreno protagonizó una agresión física contra Fernández Noroña y un trabajador del Senado tras una disputa por el uso de la palabra. El incidente fue captado en video y podría derivar en sanciones internas por conducta violenta.
El Imparcial
Logros. Sener resaltó que las plantas ayudarán a cumplir con la meta de que el 35% de la energía provenga de fuentes renovables.
24 Horas
El Financiero Bloomberg TV
La Pensión para el Bienestar de las Personas Adultas Mayores entrega de un apoyo económico bimestral de 6 mil 200 pesos
El Informador
El pasado fin de semana se hizo viral el momento en que Isidro, un trabajador de la empresa Jaropamex de Ciudad Acuña, Coahuila, sorprendió a su pareja, quien también trabaja en el mismo lugar, con un ramo de flores y una romántica propuesta de matrimonio.Irma e Ignacio mantienen una relación desde hace nueve años, revelaron a medios locales.
Vanguardia.com.mx
La Pensión para el Bienestar de las Personas Adultas Mayores es uno de los programas sociales más relevantes en México. Su propósito es garantizar un ingreso económico que contribuya a mejorar la calidad de vida de quienes han cumplido 65 años o más. Actualmente, el apoyo consiste en 6 mil 200 pesos bimestrales, entregados de manera directa
Vanguardia.com.mx
El joven, que ha conquistado a los televidentes con su carisma en el reality, participó en el videoclip de “Cuerno Azulado”, uno de los temas más controvertidos en la carrera del cantante sonorense.
El Imparcial
Lizeth Diana HernándezLa reconocida pastelería regiomontana San José sorprendió a sus seguidores al presentar un pastel inspirado en Abelito, uno de los rostros más destacados de la tercera temporada de La Casa de los Famosos México. Leer también: ¡Traiciona a Elaine Haro! Ninel revela a su favorito de "La Casa de los Famosos 2025&qu
Excelsior
Abelardo “Abelito” Gutiérrez, participante destacado de La Casa de los Famosos México, ha conquistado al público con su simpatía y autenticidad. Sin embargo, su paso por televisión no es lo único que llama la atención: su participación en un videoclip de Natanael Cano, exponente de los corridos tumbados, también generó gran revuelo.El
El Siglo de Torreón
La alianza refuerza la identidad mexicana de la marca de condimentos y abre nuevas oportunidades en mercados internacionales impulsados por la popularidad de Selena Gómez.
Expansión
Ana AlvarezEl paso del tiempo, la exposición al sol, el estrés, la contaminación y la disminución natural del colágeno son algunos de los factores que provocan la aparición de arrugas y líneas de expresión en el rostro. Aunque forman parte del proceso de envejecimiento, cada vez más personas buscan alternativas naturales que les ayuden a s
Excelsior
2026 será el año de bodas memorables de grandes exponentes de la música actual.
El Imparcial
Últimas noticias
Veracruz: Choque en Jalcomulco deja más de una decena de lesionados
Gran retorno de Messi coloca a Inter Miami en su segunda final de Leagues Cup
Personal de Atención y Rehabilitación Animal San Pedro participa en brigada de Matamoros
Enseñan lenguaje de señas a personal del Hospital General de San Pedro
Organizan convivencia a residentes de la Casa del Adulto Mayor en Francisco I. Madero
Proyectan inversión de hasta 15 mdp para obras complementarias de Agua Saludable en Matamoros
Detienen a responsable del robo de al menos 5 vehículos en Saltillo
Kim Jong Un asistirá a desfile militar en Beijing la próxima semana
Presentan tercera edición de la carrera atlética y trail de 7 y 10K Corre con Moderna Sport
CANIRAC Saltillo prevé repunte restaurantero en 2026 por crecimiento industrial
Horario y transmisión para ver en vivo a la mexicana Renata Zarazúa en el US Open
Cristal lidera consumo de drogas en Coahuila
Se incendia local de frituras en el Mercado de Abastos de Gómez Palacio
Reportan detonaciones de arma de fuego en la colonia Revolución; no hubo lesionados
Taylor Swift y Travis Kelce ganan Récord Guinness por el podcast más visto con 1.3 millones de vistas