Si está buscando una nueva razón para estar nervioso por la inteligencia artificial, pruebe esto: algunos de los humanos más inteligentes del mundo están luchando para crear pruebas que los sistemas de IA no pueden pasar.
Durante años, los sistemas de IA se midieron dando a los nuevos modelos una variedad de pruebas de referencia estandarizadas. Muchas de estas pruebas consistieron en problemas desafiantes del calibre de S.A.T. en áreas como matemáticas, ciencias y lógica. La comparación de las puntuaciones de los modelos a lo largo del tiempo sirvió como una medida aproximada del progreso de la IA.
Pero los sistemas de IA eventualmente se volvieron demasiado buenos en esas pruebas, por lo que se crearon pruebas nuevas y más difíciles, a menudo con el tipo de preguntas que los estudiantes de posgrado podrían encontrar en sus exámenes.
Esas pruebas tampoco están en buen estado. Los nuevos modelos de empresas como OpenAI, Google y Anthropic han obtenido altas puntuaciones en muchos desafíos de nivel de doctorado, lo que limita la utilidad de esas pruebas y lleva a una pregunta escalofriante: ¿Los sistemas de IA se están volviendo demasiado inteligentes para que podamos medirlos?
Esta semana, los investigadores del Centro para la Seguridad y la Escala de la IA están publicando una posible respuesta a esa pregunta: una nueva evaluación, llamada "El último examen de la humanidad", que afirman es la prueba más difícil jamás administrada a los sistemas de inteligencia artificial.
Humanity's Last Exam es una creación de Dan Hendrycks, un conocido investigador de seguridad de IA y director del Centro para la Seguridad de la IA. (El nombre original de la prueba, "La última batalla de la humanidad", fue descartado por ser demasiado dramático).
Hendrycks trabajó con Scale AI, una empresa de inteligencia artificial de la que es asesor, para compilar la prueba, que consta de aproximadamente 3.000 preguntas de opción múltiple y respuesta corta diseñadas para evaluar las capacidades de los sistemas de inteligencia artificial en áreas que van desde la filosofía analítica hasta la ingeniería de cohetes.
Las preguntas fueron enviadas por expertos en estos campos, incluidos profesores universitarios y matemáticos galardonados, a quienes se les pidió que formularan preguntas extremadamente difíciles para las que supieran las respuestas.
Selecciones de los editores
Questlove habla sobre el análisis de 50 años de música para su documental 'S.N.L.'
Lea estos libros antes de que lleguen a sus pantallas en 2025
10 mitos intestinales, corregidos
Aquí, pruebe a responder una pregunta sobre la anatomía de los colibríes de la prueba:
Los colibríes dentro de Apodiformes tienen un hueso ovalado emparejado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada expandida de inserción de m. depressor caudae. ¿Cuántos tendones pares soporta este hueso sesamoideo? Responde con un número.
O, si lo tuyo es la física, prueba esta:
Un bloque se coloca sobre un riel horizontal, a lo largo del cual puede deslizarse sin fricción. Está unido al extremo de una varilla rígida y sin masa de longitud R. Se adjunta una masa en el otro extremo. Ambos objetos tienen un peso W. El sistema es inicialmente estacionario, con la masa directamente sobre el bloque. A la masa se le da un empuje infinitesimal, paralelo al riel. Suponga que el sistema está diseñado para que la varilla pueda girar 360 grados completos sin interrupción. Cuando la varilla está horizontal, lleva la tensión T1. Cuando la varilla vuelve a estar vertical, con la masa directamente debajo del bloque, lleva la tensión T2. (Ambas cantidades podrían ser negativas, lo que indicaría que la varilla está en compresión). ¿Cuál es el valor de (T1−T2)/W?
(Imprimiría las respuestas aquí, pero eso estropearía la prueba para cualquier sistema de IA que se esté entrenando en esta columna. Además, soy demasiado tonto para verificar las respuestas yo mismo).

Las preguntas del último examen de la humanidad pasaron por un proceso de filtrado de dos pasos. En primer lugar, se entregaron preguntas a los principales modelos de IA para que las resolvieran.
Si los modelos no podían responderlas (o si, en el caso de las preguntas de opción múltiple, los modelos lo hacían peor que por adivinación aleatoria), las preguntas se entregaban a un conjunto de revisores humanos, que las refinaban y verificaban las respuestas correctas. A los expertos que escribieron las preguntas mejor calificadas se les pagó entre $500 y $5,000 por pregunta, además de recibir crédito por contribuir al examen.
Kevin Zhou, investigador postdoctoral en física teórica de partículas en la Universidad de California, Berkeley, sometió un puñado de preguntas a la prueba. Se eligieron tres de sus preguntas, todas las cuales, me dijo, estaban "en el rango superior de lo que uno podría ver en un examen de posgrado".
Hendrycks, quien ayudó a crear una prueba de IA ampliamente utilizada conocida como Comprensión Masiva del Lenguaje Multitarea, o M.M.L.U., dijo que se inspiró para crear pruebas de IA más difíciles en una conversación con Elon Musk. (Hendrycks también es asesor de seguridad de la compañía de inteligencia artificial de Musk, xAI). Musk, dijo, expresó su preocupación por las pruebas existentes que se realizan a los modelos de inteligencia artificial, que pensaba que eran demasiado fáciles.
"Elon miró las preguntas de M.M.L.U. y dijo: 'Estas son de nivel universitario. Quiero cosas que un experto de clase mundial pueda hacer'", dijo Hendrycks.
Existen otras pruebas que intentan medir las capacidades avanzadas de la IA en ciertos dominios, como FrontierMath, una prueba desarrollada por Epoch AI, y ARC-AGI, una prueba desarrollada por el investigador de la IA François Chollet.
Pero Humanity's Last Exam tiene como objetivo determinar qué tan buenos son los sistemas de IA para responder preguntas complejas en una amplia variedad de temas académicos, dándonos lo que podría considerarse como una puntuación de inteligencia general.
"Estamos tratando de estimar hasta qué punto la IA puede automatizar una gran cantidad de trabajo intelectual realmente difícil", dijo Hendrycks.
Una vez que se compiló la lista de preguntas, los investigadores dieron el último examen de la humanidad a seis modelos líderes de inteligencia artificial, incluidos Gemini 1.5 Pro de Google y Claude 3.5 Sonnet de Anthropic. Todos ellos fracasaron estrepitosamente. El sistema o1 de OpenAI obtuvo la puntuación más alta del grupo, con una puntuación del 8,3 por ciento.
(The New York Times ha demandado a OpenAI y a su socio, Microsoft, acusándolos de infringir los derechos de autor de contenido noticioso relacionado con los sistemas de inteligencia artificial. OpenAI y Microsoft han negado esas afirmaciones).
Hendrycks dijo que esperaba que esos puntajes aumentaran rápidamente, y potencialmente superaran el 50 por ciento para fin de año. En ese momento, dijo, los sistemas de IA podrían considerarse "oráculos de clase mundial", capaces de responder preguntas sobre cualquier tema con mayor precisión que los expertos humanos. Y es posible que tengamos que buscar otras formas de medir los impactos de la IA, como observar los datos económicos o juzgar si puede hacer descubrimientos novedosos en áreas como las matemáticas y la ciencia.
"Se puede imaginar una versión mejor de esto en la que podamos dar preguntas de las que aún no sabemos las respuestas, y podamos verificar si el modelo es capaz de ayudar a resolverlo por nosotros", dijo Summer Yue, directora de investigación de Scale AI y organizadora del examen.
Parte de lo que es tan confuso sobre el progreso de la IA en estos días es lo irregular que es. Tenemos modelos de IA capaces de diagnosticar enfermedades de manera más efectiva que los médicos humanos, ganando medallas de plata en la Olimpiada Internacional de Matemáticas y venciendo a los mejores programadores humanos en desafíos competitivos de codificación.
Pero estos mismos modelos a veces luchan con tareas básicas, como la aritmética o la escritura de poesía métrica. Eso les ha dado una reputación de ser asombrosamente brillantes en algunas cosas y totalmente inútiles en otras, y ha creado impresiones muy diferentes de lo rápido que está mejorando la IA, dependiendo de si se trata de los mejores o los peores resultados.
Esa irregularidad también ha dificultado la medición de estos modelos. El año pasado escribí que necesitamos mejores evaluaciones para los sistemas de inteligencia artificial. Sigo creyendo en eso. Pero también creo que necesitamos métodos más creativos para rastrear el progreso de la IA que no se basen en pruebas estandarizadas, porque la mayor parte de lo que hacen los humanos, y lo que tememos que la IA haga mejor que nosotros, no se puede capturar en un examen escrito.
Zhou, el investigador teórico de física de partículas que presentó las preguntas al último examen de la humanidad, me dijo que si bien los modelos de IA a menudo eran impresionantes para responder preguntas complejas, no los consideraba una amenaza para él y sus colegas, porque sus trabajos implican mucho más que escupir respuestas correctas.
"Hay un gran abismo entre lo que significa hacer un examen y lo que significa ser un físico e investigador en ejercicio", dijo. "Incluso una IA que pueda responder a estas preguntas podría no estar lista para ayudar en la investigación, que es inherentemente menos estructurada".
ESPN Deportes
Legisladores locales y federales desairan foro ciudadano sobre la reforma legal
Zeta Tijuana
Se trata de la pavimentación de las calles Triunfo de San Pedro, entre Toma de Santa Rosa y Toma de Guadalajara, y la calle Toma de Zacatecas, entre Toma de Santa Rosa y Viva Villa
Los Noticieristas
La mayoría de las personas tienen dificultades económicas, no porque ganen muy poco, sino porque carecen de un sistema. El crecimiento financiero suele verse como algo dramático, grandes triunfos, golpes de suerte o éxitos repentinos.
Lado.mx
Muchas empresas llegan a un punto en el que hacer marketing “como siempre” deja de funcionar. Las redes sociales ya no crecen al mismo ritmo, la publicidad digital se vuelve más costosa y el sitio web recibe visitas que no se convierten en clientes.
Lado.mx
El sector del juego online en México navega desde hace varios meses por aguas turbulentas, y ha estado marcado por una incertidumbre regulatoria. Esta situación empezó a materializarse con una prohibición temporal que restringe las operaciones de plataformas como Bet365 y Betano.
Lado.mx
Los cineastas trabajaron en una renovada adaptación de una obra cumbre
Infobae
El equipo de Hansi Flick se mide al Mallroca, en busca de seguir con su buena racha tanto en LaLiga, Champions y Copa del Rey.
ESPNdeportes.com
La importación de flores subió un 6 % anual para la época de San Valentín a un récord de 100.000 toneladas en el Aeropuerto Internacional de Miami (MIA), por donde entran el 91 % de estas plantas para todo Estados Unidos, tras “sobrevivir” a los aranceles, indicaron este viernes autor...The post Importación de flores en Miami sube
Elineanoticias.com
Zócalo Saltillo
SAN FRANCISCO, CALIFORNIA – A pocos días de que se celebre el Super Bowl LX, las calles de San Francisco han amanecido empapeladas con una imagen inesperada: el sapo concho, el anfibio endémico de Puerto Rico que Bad Bunny popularizó como símbolo de su reciente gira. Sin embargo, en esta ocasión, el peluche de culto […]La entrada El «
La Torre News
Se registró una baja en los valores del dólar con respecto a la jornada anterior
Infobae
FC Barcelona recibe a Mallorca en la Jornada 23 de LaLiga; el pronóstico apunta a triunfo 2-0 del equipo culé.
SDP Noticias
Barcelona retoma la actividad liguera en un duelo que puede servir para despegarse en el liderato.
ESPNdeportes.com
Antes del choque del Barcelona contra el RCD Mallorca este fin de semana, el entrenador Hansi Flick dijo que estaba satisfecho con el progreso que ha mostrado Lamine Yamal en las últimas semanas. Por primera vez en su carrera marcó en cuatro partidos consecutivos y en general ha marcado la diferencia en las últimas semanas. […]
Mas Cipolleti
Little Caesars lanza promoción de pizzas a 10 pesos en sucursales de Nuevo León, Coahuila y Gómez Palacio, y se vuelve viral en TikTok
Periódico Correo
Este 8 de julio puedes conseguir tu pizza Little Caesars a 10 pesos, aunque con un par de condiciones.
SDP Noticias
JOSEPH NA’ANo gustó la publicidad de una pizzería en San Luis Potosí por hacer alusión a los baches y el alcalde ordenó la suspensión de la sucursal. En esta ciudad hay dos cosas seguras: los baches… y una Domino’s en tu mesa.”. Este fue el promo de la discordia que se viralizó en las redes sociales. Sucede que después de que apar
Excelsior
México Verde vino de atrás por segundo día seguido ante Dominicana y se meten a la gran final de la Serie del Caribe Jalisco 2026.
El Imparcial
México Rojo vs México Verde en la Final de la Serie del Caribe 2026. Sábado 7 de febrero a las 19 horas; transmiten TVC Deportes, ESPN, YouTube y Disney+.
SDP Noticias
Lista la final de la Serie del Caribe 2026.
Estadio Deportes
Últimas noticias
La operadora estatal ucraniana informa de cortes eléctricos en la mayoría de regiones por ataque masivo ruso
Tailandia se prepara para votar en unos comicios marcados por el continuismo o la reforma
Se registra sismo en Puerto Escondido, Oaxaca
Condenado 6 meses de cárcel por insultar y agredir en la calle a una mujer por usar hiyab
Chiapas registra sismo de 4.2 de magnitud
Así reflexionan los candidatos: recibir calor familiar en el pueblo, deporte y descanso
El sumario del exjefe de la UDEF dibuja un complejo mapa de relaciones de narcos en Dubái
El régimen cubano anunció un nuevo paquete de medidas de emergencia ante la crisis energética
Dee Snider deja Twisted Sister y cancelan tour del 50 aniversario
Cuando la IA pase esta prueba, ¡cuidado
Este a?o inicia proyecto del dique El Moralillo en el sur de Tamaulipas
Colaborador de ISSCUU es removido por denuncia de acoso sexual: Marco Bonilla
Dona TSJ kits de higiene para mujeres del Cereso Femenil en Aquiles
Nueva masa de aire polar mantendrá bajas temperaturas en el estado: Protección Civil
La verdad detrás de los ataques de Loret a Durazo