Cuando la IA pase esta prueba, ¡cuidado

23 de Enero, 2025 13:10

Si está buscando una nueva razón para estar nervioso por la inteligencia artificial, pruebe esto: algunos de los humanos más inteligentes del mundo están luchando para crear pruebas que los sistemas de IA no pueden pasar.

Durante años, los sistemas de IA se midieron dando a los nuevos modelos una variedad de pruebas de referencia estandarizadas. Muchas de estas pruebas consistieron en problemas desafiantes del calibre de S.A.T. en áreas como matemáticas, ciencias y lógica. La comparación de las puntuaciones de los modelos a lo largo del tiempo sirvió como una medida aproximada del progreso de la IA.

Pero los sistemas de IA eventualmente se volvieron demasiado buenos en esas pruebas, por lo que se crearon pruebas nuevas y más difíciles, a menudo con el tipo de preguntas que los estudiantes de posgrado podrían encontrar en sus exámenes.

Esas pruebas tampoco están en buen estado. Los nuevos modelos de empresas como OpenAI, Google y Anthropic han obtenido altas puntuaciones en muchos desafíos de nivel de doctorado, lo que limita la utilidad de esas pruebas y lleva a una pregunta escalofriante: ¿Los sistemas de IA se están volviendo demasiado inteligentes para que podamos medirlos?

Esta semana, los investigadores del Centro para la Seguridad y la Escala de la IA están publicando una posible respuesta a esa pregunta: una nueva evaluación, llamada "El último examen de la humanidad", que afirman es la prueba más difícil jamás administrada a los sistemas de inteligencia artificial.

Humanity's Last Exam es una creación de Dan Hendrycks, un conocido investigador de seguridad de IA y director del Centro para la Seguridad de la IA. (El nombre original de la prueba, "La última batalla de la humanidad", fue descartado por ser demasiado dramático).

Hendrycks trabajó con Scale AI, una empresa de inteligencia artificial de la que es asesor, para compilar la prueba, que consta de aproximadamente 3.000 preguntas de opción múltiple y respuesta corta diseñadas para evaluar las capacidades de los sistemas de inteligencia artificial en áreas que van desde la filosofía analítica hasta la ingeniería de cohetes.

Las preguntas fueron enviadas por expertos en estos campos, incluidos profesores universitarios y matemáticos galardonados, a quienes se les pidió que formularan preguntas extremadamente difíciles para las que supieran las respuestas.

Selecciones de los editores

Questlove habla sobre el análisis de 50 años de música para su documental 'S.N.L.'

Lea estos libros antes de que lleguen a sus pantallas en 2025

10 mitos intestinales, corregidos

Aquí, pruebe a responder una pregunta sobre la anatomía de los colibríes de la prueba:

Los colibríes dentro de Apodiformes tienen un hueso ovalado emparejado bilateralmente, un sesamoideo incrustado en la porción caudolateral de la aponeurosis cruzada expandida de inserción de m. depressor caudae. ¿Cuántos tendones pares soporta este hueso sesamoideo? Responde con un número.

O, si lo tuyo es la física, prueba esta:

Un bloque se coloca sobre un riel horizontal, a lo largo del cual puede deslizarse sin fricción. Está unido al extremo de una varilla rígida y sin masa de longitud R. Se adjunta una masa en el otro extremo. Ambos objetos tienen un peso W. El sistema es inicialmente estacionario, con la masa directamente sobre el bloque. A la masa se le da un empuje infinitesimal, paralelo al riel. Suponga que el sistema está diseñado para que la varilla pueda girar 360 grados completos sin interrupción. Cuando la varilla está horizontal, lleva la tensión T1. Cuando la varilla vuelve a estar vertical, con la masa directamente debajo del bloque, lleva la tensión T2. (Ambas cantidades podrían ser negativas, lo que indicaría que la varilla está en compresión). ¿Cuál es el valor de (T1−T2)/W?

(Imprimiría las respuestas aquí, pero eso estropearía la prueba para cualquier sistema de IA que se esté entrenando en esta columna. Además, soy demasiado tonto para verificar las respuestas yo mismo).

Humanity's Last Exam es una creación de Dan Hendrycks, investigador de seguridad de IA y director del Centro para la Seguridad de la IA. Guerin Blask para The New York Times

Las preguntas del último examen de la humanidad pasaron por un proceso de filtrado de dos pasos. En primer lugar, se entregaron preguntas a los principales modelos de IA para que las resolvieran.

Si los modelos no podían responderlas (o si, en el caso de las preguntas de opción múltiple, los modelos lo hacían peor que por adivinación aleatoria), las preguntas se entregaban a un conjunto de revisores humanos, que las refinaban y verificaban las respuestas correctas. A los expertos que escribieron las preguntas mejor calificadas se les pagó entre $500 y $5,000 por pregunta, además de recibir crédito por contribuir al examen.

Kevin Zhou, investigador postdoctoral en física teórica de partículas en la Universidad de California, Berkeley, sometió un puñado de preguntas a la prueba. Se eligieron tres de sus preguntas, todas las cuales, me dijo, estaban "en el rango superior de lo que uno podría ver en un examen de posgrado".

Hendrycks, quien ayudó a crear una prueba de IA ampliamente utilizada conocida como Comprensión Masiva del Lenguaje Multitarea, o M.M.L.U., dijo que se inspiró para crear pruebas de IA más difíciles en una conversación con Elon Musk. (Hendrycks también es asesor de seguridad de la compañía de inteligencia artificial de Musk, xAI). Musk, dijo, expresó su preocupación por las pruebas existentes que se realizan a los modelos de inteligencia artificial, que pensaba que eran demasiado fáciles.

"Elon miró las preguntas de M.M.L.U. y dijo: 'Estas son de nivel universitario. Quiero cosas que un experto de clase mundial pueda hacer'", dijo Hendrycks.

Existen otras pruebas que intentan medir las capacidades avanzadas de la IA en ciertos dominios, como FrontierMath, una prueba desarrollada por Epoch AI, y ARC-AGI, una prueba desarrollada por el investigador de la IA François Chollet.

Pero Humanity's Last Exam tiene como objetivo determinar qué tan buenos son los sistemas de IA para responder preguntas complejas en una amplia variedad de temas académicos, dándonos lo que podría considerarse como una puntuación de inteligencia general.

"Estamos tratando de estimar hasta qué punto la IA puede automatizar una gran cantidad de trabajo intelectual realmente difícil", dijo Hendrycks.

Una vez que se compiló la lista de preguntas, los investigadores dieron el último examen de la humanidad a seis modelos líderes de inteligencia artificial, incluidos Gemini 1.5 Pro de Google y Claude 3.5 Sonnet de Anthropic. Todos ellos fracasaron estrepitosamente. El sistema o1 de OpenAI obtuvo la puntuación más alta del grupo, con una puntuación del 8,3 por ciento.

(The New York Times ha demandado a OpenAI y a su socio, Microsoft, acusándolos de infringir los derechos de autor de contenido noticioso relacionado con los sistemas de inteligencia artificial. OpenAI y Microsoft han negado esas afirmaciones).

Hendrycks dijo que esperaba que esos puntajes aumentaran rápidamente, y potencialmente superaran el 50 por ciento para fin de año. En ese momento, dijo, los sistemas de IA podrían considerarse "oráculos de clase mundial", capaces de responder preguntas sobre cualquier tema con mayor precisión que los expertos humanos. Y es posible que tengamos que buscar otras formas de medir los impactos de la IA, como observar los datos económicos o juzgar si puede hacer descubrimientos novedosos en áreas como las matemáticas y la ciencia.

"Se puede imaginar una versión mejor de esto en la que podamos dar preguntas de las que aún no sabemos las respuestas, y podamos verificar si el modelo es capaz de ayudar a resolverlo por nosotros", dijo Summer Yue, directora de investigación de Scale AI y organizadora del examen.

Parte de lo que es tan confuso sobre el progreso de la IA en estos días es lo irregular que es. Tenemos modelos de IA capaces de diagnosticar enfermedades de manera más efectiva que los médicos humanos, ganando medallas de plata en la Olimpiada Internacional de Matemáticas y venciendo a los mejores programadores humanos en desafíos competitivos de codificación.

Pero estos mismos modelos a veces luchan con tareas básicas, como la aritmética o la escritura de poesía métrica. Eso les ha dado una reputación de ser asombrosamente brillantes en algunas cosas y totalmente inútiles en otras, y ha creado impresiones muy diferentes de lo rápido que está mejorando la IA, dependiendo de si se trata de los mejores o los peores resultados.

Esa irregularidad también ha dificultado la medición de estos modelos. El año pasado escribí que necesitamos mejores evaluaciones para los sistemas de inteligencia artificial. Sigo creyendo en eso. Pero también creo que necesitamos métodos más creativos para rastrear el progreso de la IA que no se basen en pruebas estandarizadas, porque la mayor parte de lo que hacen los humanos, y lo que tememos que la IA haga mejor que nosotros, no se puede capturar en un examen escrito.

Zhou, el investigador teórico de física de partículas que presentó las preguntas al último examen de la humanidad, me dijo que si bien los modelos de IA a menudo eran impresionantes para responder preguntas complejas, no los consideraba una amenaza para él y sus colegas, porque sus trabajos implican mucho más que escupir respuestas correctas.

"Hay un gran abismo entre lo que significa hacer un examen y lo que significa ser un físico e investigador en ejercicio", dijo. "Incluso una IA que pueda responder a estas preguntas podría no estar lista para ayudar en la investigación, que es inherentemente menos estructurada".

Compartir en:

Más lejos que nunca, Artemis II reabre los misterios de la Luna y su exploración. 10:44

Artemis II alcanza récord de distancia humana y abre una nueva etapa en la exploración lunar para resolver enigmas científicos pendientes

NotiPress

Liberan bajo fianza a comunicadores mexicanos detenidos en Sudáfrica.10:25

La embajada de México confirmó la libertad condicional de dos comunicadores detenidos en Sudáfrica, mientras continúa el proceso legal.

Estadio Deportes

Alisson Becker sigue lesionado ¿Se pierde el Mundial 2026?. 10:25

Alisson Becker sigue en recuperación de su lesión y vuelve a causar baja para partidos clave del Liverpool esta temporada

Estadio Deportes

México somete a la industria del juego a una supervisión fiscal continua.

El Servicio de Administración Tributaria (SAT), la principal autoridad tributaria de México, obtuvo facultades para supervisar en tiempo real las operaciones de casinos, tragamonedas, sorteos y apuestas deportivas.

Lado.mx

Cómo plataformas como WunderTrading están cambiando la forma de invertir en criptomonedas.

El interés por las criptomonedas no ha dejado de crecer en los últimos años. Cada vez más personas buscan formas de participar en este mercado, ya sea como una alternativa de inversión o como una forma de diversificar sus ingresos.

Lado.mx

Cómo crear un plan de contingencia para cobros en cadenas comerciales.

Las cadenas comerciales enfrentan un desafío constante: garantizar que cada sucursal pueda procesar pagos sin interrupciones, sin importar las condiciones. Una caída de internet, una terminal dañada o un pico de demanda inesperado pueden paralizar las ventas en minutos.

Lado.mx

17 mil personas requieren trasplante en México Débora Holtz.08:59

Milenio

¿Cuándo juegan los Dodgers este fin de semana? Horarios y calendario de la MLB 2026. 10:06

La temporada 2026 de las Grandes Ligas sigue su curso y los aficionados de Los Angeles Dodgers están pendientes de cada aparición del equipo angelino. Tras un inicio de campaña vibrante, la novena de California se prepara para una serie clave frente a los Washington Nationals. Conocer con exactitud cuándo juegan los Dodgers es fundamental ̷

365scores

Más lejos que nunca, Artemis II reabre los misterios de la Luna y su exploración. 10:44

Artemis II alcanza récord de distancia humana y abre una nueva etapa en la exploración lunar para resolver enigmas científicos pendientes

NotiPress

VIDEO | Momento exacto de la caída de la avioneta en Puebla. 19:30

La tarde de este jueves 2 de abril de 2026, una tragedia aérea conmocionó al estado de Puebla. Una aeronave ligera se desplomó en el municipio de Huejotzingo, dejando un saldo de cuatro personas sin vida. Poco después del siniestro, comenzó a circular en redes sociales un video que muestra el momento exacto del impacto. … seguir leyendo.

Formato7.com

Nido Empresarial conecta a universitarios con el sector productivo en México. 21:36

El programa suma más de 2500 egresados y mantiene colaboración activa con 45 universidades en el país.

Fashion Network

España se sumerge en la tradición de Semana Santa. 21:36

España vive hoy una de las jornadas más intensas de su Semana Santa, en un Jueves Santo marcado por el silencio, la devoción y el luto tradicional, mientras algunas localidades apuestan por alternativas culturales. En pueblos y ciudades de toda España, país con gran tradición católica, decenas de...The post España se sumerge en la tradició

Elineanoticias.com

¡VAN POR LA HISTORIA! Chivas y el récord que busca implantar ante Pumas en la Jornada 13 de Liga MX. 17:59

TUDN México

Trump anuncia salida de Bondi como fiscal tras el caso Epstein | Paola Barquet, 2 de abril de 2026. 01:59

Milenio

#AtajadaDelMes de marzo: "Tala" Rangel detiene el penal en el último segundo del juego. @rexonamx. 21:59

Liga MX

padres - red sox

Fenway Park; el Monstruo Verde que impone en las Grandes Ligas. 17 de Diciembre, 2025 18:27

Fenway Park; el Monstruo Verde que impone en las Grandes Ligas Uno de los estadios más longevos e icónicos en la historia y que está ubicado en el corazón de Boston amartinezMié, 17/12/2025 - 18:07 Existen en el deporte recintos t

Record

¿Cuáles son los agentes libres más cotizados de las Grandes Ligas para el 2026?. 18 de Diciembre, 2025 18:38

¿Cuáles son los agentes libres más cotizados de las Grandes Ligas para el 2026? A menos de 100 días para que vuelva la MLB, los equipos preparan la pre lista para los entrenamientos de primavera amartinezJue, 18/12/2025 - 18:14 Lue

Record

Luis Arraez llega a San Francisco Giants y jugaría ante Sultanes de Monterrey. 02 de Febrero, 2026 18:25

Así como sucedió el año pasado en los juegos de pretemporada contra los Red Sox de Boston, los Sultanes de Monterrey tendrán la posibilidad de enfrentar a peloteros estelares como Luis Arraez en los dos partidos que sostendrán contra los Giants de San Francisco.El venezolano Arraez fue anunciado como refuerzo del equipo de la Bahía tras llega

Milenio

blue jays - white sox

Serie Mundial: ¿Cuáles son los equipos más ganadores en la historia del Clásico de Otoño?. 01 de Noviembre, 2025 23:48

Serie Mundial: ¿Cuáles son los equipos más ganadores en la historia del Clásico de Otoño? El equipo de Los Angeles superó a los neoyorquinos y se alzó con un título más de Grandes Ligas adminrecordSáb, 01/11/2025 - 23:27

Record

Dylan Cease firma con Blue Jays por siete años y 210 millones. 26 de Noviembre, 2025 18:10

Ariel VelázquezEl mercado invernal de la Major League Baseball comenzó a tomar temperatura este miércoles con el acuerdo entre el lanzador derecho Dylan Cease y los Blue Jays de Toronto por siete años y 210 millones, pendiente de un examen físico, de acuerdo con información de Jeff Passan a ESPN.La contratación refuerza la rotación de Tor

Excelsior

Blue Jays visit White Sox in rare road trip to start season . 14:37

While the Chicago White Sox were eager to return home after a season-opening 1-5 road trip, they were forced to wait through an extra off day as they

Deadspin

psg - toulouse

Florian Thauvin y Lens "roban" liderato al PSG. 30 de Noviembre, 2025 16:54

Bernardo Ferreira / AFPLa Ligue 1 tiene un nuevo e inesperado líder: el Lens pasó a ocupar la primera posición al ganar 2-1 en su visita al Angers, este domingo en la 14ª jornada, adelantando así en la tabla al París Saint-Germain, derrotado la víspera en Mónaco.NO TE PIERDAS: Xolos hila fracasos luego de haber ganado 3-0 la idaFlorian Tha

Excelsior

EA Sports FC 26: TOTW 19 ya disponible con Bruno Fernandes, Kramaric y Quiñones. 22 de Enero, 2026 01:18

EA Sports ya ha lanzado el TOTW 19 del Ultimate Team con jugadores destacados como Bruno Fernandes, Kramaric y Quiñones. Estas cartas especiales estarán disponibles hasta el 28 de enero.EA Sports FC 26, el popular título de Deportes y Fútbol, ya tiene un nuevo Team of the Week disponible para España y todo el mundo. La modalidad del Ultimate T

Vandal

Qué canal pasa PSG vs Toulouse hoy: dónde ver gratis y EN VIVO de la Ligue 1. 10:57

PSG vs Toulouse protagonizan un choque de realidades opuestas en el Parque de los Príncipes por la jornada 28 de la Ligue 1. El conjunto parisino llega con la obligación de sumar de a tres para consolidar su dominio en la cima del campeonato y evitar que sus perseguidores recorten distancias en la recta final …

365scores

Últimas noticias

Cruz Azul vs Pachuca: pronósticos y momios por la Liga MX

¡GOL de Cristiano Ronaldo! El Bicho regresa con todo en el Al-Nassr vs. Al-Najma

La Rôtisserie d"Argent reabre su encantadora terraza junto a los muelles de París para la primavera-verano de 2026.

Claude Monet: las exposiciones y encuentros que celebran al artista con motivo del centenario de su muerte en 2026

El circo más pequeño del mundo se instala en el Hangar Y para una Noche en Blanco 2026 mágica

Hallan cuerpo en estado de descomposición en urbanización de Guaynabo

Pedro Pascal filma en Ciudad de México

El survival de mundo abierto de Xbox por fin da señales de vida, pero lo mejor es que ya puedes apuntarte para la primera prueba de State of Decay 3

Rockout pierde a headliner, Evaristo, y su venue tambalea

ÚLTIMA HORA. Mueren cinco integrantes de una familia del Edomex que iban a Acapulco; hay 8 heridos

DIF Huauchinango se lava las manos en el caso de mujer de la 3ra edad abandonada

Cae trio de policías por robo millonario en CDMX; simularon revisión y huyeron con el efectivo

Gobierno de Cuautlancingo realiza entrega de premios del Sorteo Predial

Recorre Pável Gaspar la Mixteca poblana para promover obras comunitarias locales

SUEM mantiene acciones de atención a visitantes en el Santuario de Chalma

Cuando la IA pase esta prueba, ¡cuidado Diario.mx

Más lejos que nunca, Artemis II reabre los misterios de la Luna y su exploración. 10:44

Liberan bajo fianza a comunicadores mexicanos detenidos en Sudáfrica.10:25

Alisson Becker sigue lesionado ¿Se pierde el Mundial 2026?. 10:25

México somete a la industria del juego a una supervisión fiscal continua.

Cómo plataformas como WunderTrading están cambiando la forma de invertir en criptomonedas.

Cómo crear un plan de contingencia para cobros en cadenas comerciales.

17 mil personas requieren trasplante en México Débora Holtz.08:59

¿Cuándo juegan los Dodgers este fin de semana? Horarios y calendario de la MLB 2026. 10:06

Más lejos que nunca, Artemis II reabre los misterios de la Luna y su exploración. 10:44

VIDEO | Momento exacto de la caída de la avioneta en Puebla. 19:30

Nido Empresarial conecta a universitarios con el sector productivo en México. 21:36

España se sumerge en la tradición de Semana Santa. 21:36

¡VAN POR LA HISTORIA! Chivas y el récord que busca implantar ante Pumas en la Jornada 13 de Liga MX. 17:59

Trump anuncia salida de Bondi como fiscal tras el caso Epstein | Paola Barquet, 2 de abril de 2026. 01:59

#AtajadaDelMes de marzo: "Tala" Rangel detiene el penal en el último segundo del juego. @rexonamx. 21:59

padres - red sox

Fenway Park; el Monstruo Verde que impone en las Grandes Ligas. 17 de Diciembre, 2025 18:27

¿Cuáles son los agentes libres más cotizados de las Grandes Ligas para el 2026?. 18 de Diciembre, 2025 18:38

Luis Arraez llega a San Francisco Giants y jugaría ante Sultanes de Monterrey. 02 de Febrero, 2026 18:25

blue jays - white sox

Serie Mundial: ¿Cuáles son los equipos más ganadores en la historia del Clásico de Otoño?. 01 de Noviembre, 2025 23:48

Dylan Cease firma con Blue Jays por siete años y 210 millones. 26 de Noviembre, 2025 18:10

Blue Jays visit White Sox in rare road trip to start season . 14:37

psg - toulouse

Florian Thauvin y Lens "roban" liderato al PSG. 30 de Noviembre, 2025 16:54

EA Sports FC 26: TOTW 19 ya disponible con Bruno Fernandes, Kramaric y Quiñones. 22 de Enero, 2026 01:18

Qué canal pasa PSG vs Toulouse hoy: dónde ver gratis y EN VIVO de la Ligue 1. 10:57