Si está buscando una nueva razón para estar nervioso por la inteligencia artificial, pruebe esto: algunos de los humanos más inteligentes del mundo están luchando para crear pruebas que los sistemas de IA no pueden pasar.
Durante años, los sistemas de IA se midieron dando a los nuevos modelos una variedad de pruebas de referencia estandarizadas. Muchas de estas pruebas consistieron en problemas desafiantes del calibre de S.A.T. en áreas como matemáticas, ciencias y lógica. La comparación de las puntuaciones de los modelos a lo largo del tiempo sirvió como una medida aproximada del progreso de la IA.
Pero los sistemas de IA eventualmente se volvieron demasiado buenos en esas pruebas, por lo que se crearon pruebas nuevas y más difíciles, a menudo con el tipo de preguntas que los estudiantes de posgrado podrían encontrar en sus exámenes.
Esas pruebas tampoco están en buen estado. Los nuevos modelos de empresas como OpenAI, Google y Anthropic han obtenido altas puntuaciones en muchos desafíos de nivel de doctorado, lo que limita la utilidad de esas pruebas y lleva a una pregunta escalofriante: ¿Los sistemas de IA se están volviendo demasiado inteligentes para que podamos medirlos?
Esta semana, los investigadores del Centro para la Seguridad y la Escala de la IA están publicando una posible respuesta a esa pregunta: una nueva evaluación, llamada "El último examen de la humanidad", que afirman es la prueba más difícil jamás administrada a los sistemas de inteligencia artificial.
Humanity's Last Exam es una creación de Dan Hendrycks, un conocido investigador de seguridad de IA y director del Centro para la Seguridad de la IA. (El nombre original de la prueba, "La última batalla de la humanidad", fue descartado por ser demasiado dramático).
Hendrycks trabajó con Scale AI, una empresa de inteligencia artificial de la que es asesor, para compilar la prueba, que consta de aproximadamente 3.000 preguntas de opción múltiple y respuesta corta diseñadas para evaluar las capacidades de los sistemas de inteligencia artificial en áreas que van desde la filosofía analítica hasta la ingeniería de cohetes.
Las preguntas fueron enviadas por expertos en estos campos, incluidos profesores universitarios y matemáticos galardonados, a quienes se les pidió que formularan preguntas extremadamente difíciles para las que supieran las respuestas.
Selecciones de los editores
Questlove habla sobre el análisis de 50 años de música para su documental 'S.N.L.'
Lea estos libros antes de que lleguen a sus pantallas en 2025
10 mitos intestinales, corregidos
Aquí, pruebe a responder una pregunta sobre la anatomía de los colibríes de la prueba:
Los colibríes dentro de Apodiformes tienen un hueso ovalado emparejado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada expandida de inserción de m. depressor caudae. ¿Cuántos tendones pares soporta este hueso sesamoideo? Responde con un número.
O, si lo tuyo es la física, prueba esta:
Un bloque se coloca sobre un riel horizontal, a lo largo del cual puede deslizarse sin fricción. Está unido al extremo de una varilla rígida y sin masa de longitud R. Se adjunta una masa en el otro extremo. Ambos objetos tienen un peso W. El sistema es inicialmente estacionario, con la masa directamente sobre el bloque. A la masa se le da un empuje infinitesimal, paralelo al riel. Suponga que el sistema está diseñado para que la varilla pueda girar 360 grados completos sin interrupción. Cuando la varilla está horizontal, lleva la tensión T1. Cuando la varilla vuelve a estar vertical, con la masa directamente debajo del bloque, lleva la tensión T2. (Ambas cantidades podrían ser negativas, lo que indicaría que la varilla está en compresión). ¿Cuál es el valor de (T1−T2)/W?
(Imprimiría las respuestas aquí, pero eso estropearía la prueba para cualquier sistema de IA que se esté entrenando en esta columna. Además, soy demasiado tonto para verificar las respuestas yo mismo).

Las preguntas del último examen de la humanidad pasaron por un proceso de filtrado de dos pasos. En primer lugar, se entregaron preguntas a los principales modelos de IA para que las resolvieran.
Si los modelos no podían responderlas (o si, en el caso de las preguntas de opción múltiple, los modelos lo hacían peor que por adivinación aleatoria), las preguntas se entregaban a un conjunto de revisores humanos, que las refinaban y verificaban las respuestas correctas. A los expertos que escribieron las preguntas mejor calificadas se les pagó entre $500 y $5,000 por pregunta, además de recibir crédito por contribuir al examen.
Kevin Zhou, investigador postdoctoral en física teórica de partículas en la Universidad de California, Berkeley, sometió un puñado de preguntas a la prueba. Se eligieron tres de sus preguntas, todas las cuales, me dijo, estaban "en el rango superior de lo que uno podría ver en un examen de posgrado".
Hendrycks, quien ayudó a crear una prueba de IA ampliamente utilizada conocida como Comprensión Masiva del Lenguaje Multitarea, o M.M.L.U., dijo que se inspiró para crear pruebas de IA más difíciles en una conversación con Elon Musk. (Hendrycks también es asesor de seguridad de la compañía de inteligencia artificial de Musk, xAI). Musk, dijo, expresó su preocupación por las pruebas existentes que se realizan a los modelos de inteligencia artificial, que pensaba que eran demasiado fáciles.
"Elon miró las preguntas de M.M.L.U. y dijo: 'Estas son de nivel universitario. Quiero cosas que un experto de clase mundial pueda hacer'", dijo Hendrycks.
Existen otras pruebas que intentan medir las capacidades avanzadas de la IA en ciertos dominios, como FrontierMath, una prueba desarrollada por Epoch AI, y ARC-AGI, una prueba desarrollada por el investigador de la IA François Chollet.
Pero Humanity's Last Exam tiene como objetivo determinar qué tan buenos son los sistemas de IA para responder preguntas complejas en una amplia variedad de temas académicos, dándonos lo que podría considerarse como una puntuación de inteligencia general.
"Estamos tratando de estimar hasta qué punto la IA puede automatizar una gran cantidad de trabajo intelectual realmente difícil", dijo Hendrycks.
Una vez que se compiló la lista de preguntas, los investigadores dieron el último examen de la humanidad a seis modelos líderes de inteligencia artificial, incluidos Gemini 1.5 Pro de Google y Claude 3.5 Sonnet de Anthropic. Todos ellos fracasaron estrepitosamente. El sistema o1 de OpenAI obtuvo la puntuación más alta del grupo, con una puntuación del 8,3 por ciento.
(The New York Times ha demandado a OpenAI y a su socio, Microsoft, acusándolos de infringir los derechos de autor de contenido noticioso relacionado con los sistemas de inteligencia artificial. OpenAI y Microsoft han negado esas afirmaciones).
Hendrycks dijo que esperaba que esos puntajes aumentaran rápidamente, y potencialmente superaran el 50 por ciento para fin de año. En ese momento, dijo, los sistemas de IA podrían considerarse "oráculos de clase mundial", capaces de responder preguntas sobre cualquier tema con mayor precisión que los expertos humanos. Y es posible que tengamos que buscar otras formas de medir los impactos de la IA, como observar los datos económicos o juzgar si puede hacer descubrimientos novedosos en áreas como las matemáticas y la ciencia.
"Se puede imaginar una versión mejor de esto en la que podamos dar preguntas de las que aún no sabemos las respuestas, y podamos verificar si el modelo es capaz de ayudar a resolverlo por nosotros", dijo Summer Yue, directora de investigación de Scale AI y organizadora del examen.
Parte de lo que es tan confuso sobre el progreso de la IA en estos días es lo irregular que es. Tenemos modelos de IA capaces de diagnosticar enfermedades de manera más efectiva que los médicos humanos, ganando medallas de plata en la Olimpiada Internacional de Matemáticas y venciendo a los mejores programadores humanos en desafíos competitivos de codificación.
Pero estos mismos modelos a veces luchan con tareas básicas, como la aritmética o la escritura de poesía métrica. Eso les ha dado una reputación de ser asombrosamente brillantes en algunas cosas y totalmente inútiles en otras, y ha creado impresiones muy diferentes de lo rápido que está mejorando la IA, dependiendo de si se trata de los mejores o los peores resultados.
Esa irregularidad también ha dificultado la medición de estos modelos. El año pasado escribí que necesitamos mejores evaluaciones para los sistemas de inteligencia artificial. Sigo creyendo en eso. Pero también creo que necesitamos métodos más creativos para rastrear el progreso de la IA que no se basen en pruebas estandarizadas, porque la mayor parte de lo que hacen los humanos, y lo que tememos que la IA haga mejor que nosotros, no se puede capturar en un examen escrito.
Zhou, el investigador teórico de física de partículas que presentó las preguntas al último examen de la humanidad, me dijo que si bien los modelos de IA a menudo eran impresionantes para responder preguntas complejas, no los consideraba una amenaza para él y sus colegas, porque sus trabajos implican mucho más que escupir respuestas correctas.
"Hay un gran abismo entre lo que significa hacer un examen y lo que significa ser un físico e investigador en ejercicio", dijo. "Incluso una IA que pueda responder a estas preguntas podría no estar lista para ayudar en la investigación, que es inherentemente menos estructurada".
Artemis II alcanza récord de distancia humana y abre una nueva etapa en la exploración lunar para resolver enigmas científicos pendientes
NotiPress
La embajada de México confirmó la libertad condicional de dos comunicadores detenidos en Sudáfrica, mientras continúa el proceso legal.
Estadio Deportes
Alisson Becker sigue en recuperación de su lesión y vuelve a causar baja para partidos clave del Liverpool esta temporada
Estadio Deportes
El Servicio de Administración Tributaria (SAT), la principal autoridad tributaria de México, obtuvo facultades para supervisar en tiempo real las operaciones de casinos, tragamonedas, sorteos y apuestas deportivas.
Lado.mx
El interés por las criptomonedas no ha dejado de crecer en los últimos años. Cada vez más personas buscan formas de participar en este mercado, ya sea como una alternativa de inversión o como una forma de diversificar sus ingresos.
Lado.mx
Las cadenas comerciales enfrentan un desafío constante: garantizar que cada sucursal pueda procesar pagos sin interrupciones, sin importar las condiciones. Una caída de internet, una terminal dañada o un pico de demanda inesperado pueden paralizar las ventas en minutos.
Lado.mx
La temporada 2026 de las Grandes Ligas sigue su curso y los aficionados de Los Angeles Dodgers están pendientes de cada aparición del equipo angelino. Tras un inicio de campaña vibrante, la novena de California se prepara para una serie clave frente a los Washington Nationals. Conocer con exactitud cuándo juegan los Dodgers es fundamental ̷
365scores
Artemis II alcanza récord de distancia humana y abre una nueva etapa en la exploración lunar para resolver enigmas científicos pendientes
NotiPress
La tarde de este jueves 2 de abril de 2026, una tragedia aérea conmocionó al estado de Puebla. Una aeronave ligera se desplomó en el municipio de Huejotzingo, dejando un saldo de cuatro personas sin vida. Poco después del siniestro, comenzó a circular en redes sociales un video que muestra el momento exacto del impacto. … seguir leyendo.
Formato7.com
El programa suma más de 2500 egresados y mantiene colaboración activa con 45 universidades en el país.
Fashion Network
España vive hoy una de las jornadas más intensas de su Semana Santa, en un Jueves Santo marcado por el silencio, la devoción y el luto tradicional, mientras algunas localidades apuestan por alternativas culturales. En pueblos y ciudades de toda España, país con gran tradición católica, decenas de...The post España se sumerge en la tradició
Elineanoticias.com
Fenway Park; el Monstruo Verde que impone en las Grandes Ligas Uno de los estadios más longevos e icónicos en la historia y que está ubicado en el corazón de Boston amartinezMié, 17/12/2025 - 18:07 Existen en el deporte recintos t
Record
¿Cuáles son los agentes libres más cotizados de las Grandes Ligas para el 2026? A menos de 100 días para que vuelva la MLB, los equipos preparan la pre lista para los entrenamientos de primavera amartinezJue, 18/12/2025 - 18:14 Lue
Record
Así como sucedió el año pasado en los juegos de pretemporada contra los Red Sox de Boston, los Sultanes de Monterrey tendrán la posibilidad de enfrentar a peloteros estelares como Luis Arraez en los dos partidos que sostendrán contra los Giants de San Francisco.El venezolano Arraez fue anunciado como refuerzo del equipo de la Bahía tras llega
Milenio
Serie Mundial: ¿Cuáles son los equipos más ganadores en la historia del Clásico de Otoño? El equipo de Los Angeles superó a los neoyorquinos y se alzó con un título más de Grandes Ligas adminrecordSáb, 01/11/2025 - 23:27
Record
Ariel VelázquezEl mercado invernal de la Major League Baseball comenzó a tomar temperatura este miércoles con el acuerdo entre el lanzador derecho Dylan Cease y los Blue Jays de Toronto por siete años y 210 millones, pendiente de un examen físico, de acuerdo con información de Jeff Passan a ESPN.La contratación refuerza la rotación de Tor
Excelsior
While the Chicago White Sox were eager to return home after a season-opening 1-5 road trip, they were forced to wait through an extra off day as they
Deadspin
Bernardo Ferreira / AFPLa Ligue 1 tiene un nuevo e inesperado líder: el Lens pasó a ocupar la primera posición al ganar 2-1 en su visita al Angers, este domingo en la 14ª jornada, adelantando así en la tabla al París Saint-Germain, derrotado la víspera en Mónaco.NO TE PIERDAS: Xolos hila fracasos luego de haber ganado 3-0 la idaFlorian Tha
Excelsior
EA Sports ya ha lanzado el TOTW 19 del Ultimate Team con jugadores destacados como Bruno Fernandes, Kramaric y Quiñones. Estas cartas especiales estarán disponibles hasta el 28 de enero.EA Sports FC 26, el popular título de Deportes y Fútbol, ya tiene un nuevo Team of the Week disponible para España y todo el mundo. La modalidad del Ultimate T
Vandal
PSG vs Toulouse protagonizan un choque de realidades opuestas en el Parque de los Príncipes por la jornada 28 de la Ligue 1. El conjunto parisino llega con la obligación de sumar de a tres para consolidar su dominio en la cima del campeonato y evitar que sus perseguidores recorten distancias en la recta final …
365scores
Últimas noticias
Cruz Azul vs Pachuca: pronósticos y momios por la Liga MX
¡GOL de Cristiano Ronaldo! El Bicho regresa con todo en el Al-Nassr vs. Al-Najma
La Rôtisserie d"Argent reabre su encantadora terraza junto a los muelles de París para la primavera-verano de 2026.
Claude Monet: las exposiciones y encuentros que celebran al artista con motivo del centenario de su muerte en 2026
El circo más pequeño del mundo se instala en el Hangar Y para una Noche en Blanco 2026 mágica
Hallan cuerpo en estado de descomposición en urbanización de Guaynabo
Pedro Pascal filma en Ciudad de México
El survival de mundo abierto de Xbox por fin da señales de vida, pero lo mejor es que ya puedes apuntarte para la primera prueba de State of Decay 3
Rockout pierde a headliner, Evaristo, y su venue tambalea
ÚLTIMA HORA. Mueren cinco integrantes de una familia del Edomex que iban a Acapulco; hay 8 heridos
DIF Huauchinango se lava las manos en el caso de mujer de la 3ra edad abandonada
Cae trio de policías por robo millonario en CDMX; simularon revisión y huyeron con el efectivo
Gobierno de Cuautlancingo realiza entrega de premios del Sorteo Predial
Recorre Pável Gaspar la Mixteca poblana para promover obras comunitarias locales
SUEM mantiene acciones de atención a visitantes en el Santuario de Chalma