Cali, marzo 15 de 2026. Actualizado: viernes, marzo 13, 2026 23:41

La empresa comparte 10 demostraciones generadas por un modelo entrenado para razonamiento profundo; varios expertos ya evalúan su validez

OpenAI publica intentos de prueba matemática y dice que al menos cinco podrían ser correctos

OpenAI publica intentos de prueba matemática y dice que al menos cinco podrían ser correctos
lunes 23 de febrero, 2026

OpenAI divulgó, el 20 de febrero de 2026, una colección de intentos de demostración matemática generados por uno de sus modelos de investigación como parte del reto First Proof, una competición diseñada para probar si la inteligencia artificial puede producir pruebas verificables en problemas de investigación especializados.

La compañía colocó a disposición un documento con las diez soluciones presentadas y detalla el proceso de entrenamiento y verificación usado.

Un reto de “investigación” para la IA

OpenAI explica que First Proof plantea problemas de nivel de investigación —no ejercicios escolares ni preguntas de concurso— cuyas soluciones requieren cadenas largas de razonamiento y conocimiento de campos técnicos.

Los autores de esos problemas son expertos reconocidos; algunos enunciados habían permanecido abiertos durante años antes de tener solución humana. Según la nota, comprobar la corrección de una demostración automática exige revisión experta.

Resultados preliminares y transparencia

La empresa compartió sus intentos el 14 de febrero de 2026 a las 00:00 PT y, tras recibir retroalimentación de expertos, considera que al menos cinco de las diez demostraciones (los problemas 4, 5, 6, 9 y 10) “tienen una alta probabilidad de ser correctas”.

Señala además que inicialmente pensaron que la solución del problema 2 era correcta, pero tras comentarios oficiales y análisis comunitario ahora la consideran incorrecta. OpenAI ha publicado el conjunto completo de intentos en un PDF público.

Cómo trabajó el modelo y el papel de los humanos

Según la nota, el experimento se realizó con supervisión humana limitada. Durante el proceso, los investigadores sugirieron estrategias de reintento útiles, pidieron ampliaciones de pasos que recibieron críticas y facilitaron intercambios entre el modelo en prueba y ChatGPT para verificar y mejorar formato y claridad.

La prepublicación incluye un anexo con patrones de “prompt” y ejemplos que intentan reproducir las interacciones manuales empleadas.

OpenAI reconoce que el experimento fue un “sprint” rápido y confía en discutir con los organizadores de First Proof formatos de evaluación más rigurosos en el futuro.

¿Por qué importa este avance?

Interrumpir o acelerar tareas de investigación exige algo más que responder preguntas cortas: implica sostener razonamientos largos, elegir abstracciones adecuadas y manejar ambigüedad.

OpenAI argumenta que desafíos de frontera como First Proof son una prueba más exigente de las capacidades de los modelos que los benchmarks tradicionales.

Además, el anuncio se enmarca en una serie de resultados recientes que la compañía cita para contextualizar progreso: en julio de 2025 un modelo alcanzó rendimiento de nivel medalla de oro en la Olimpiada Matemática Internacional (35/42 puntos); en noviembre de 2025 hubo experimentos donde GPT‑5 ayudó a investigadores en distintas áreas; y en febrero de 2026 GPT‑5.2 propuso una expresión candidata en física teórica que luego fue formalmente probada internamente.

Declaraciones desde la investigación

James R. Lee, investigador en OpenAI centrado en razonamiento, aparece citado diciendo que entrenan un modelo enfocado en aumentar la rigurosidad del pensamiento para que pueda “pensar continuamente durante muchas horas” con alta confianza. Lee relata que, al aplicarlo a First Proof, el modelo resolvió primero dos problemas (#9 y #10) y luego otros, mejorando día a día durante el entrenamiento.

Qué significa esto para la sociedad (en términos simples)

  • LLM (modelo de lenguaje grande): es un programa entrenado con grandes cantidades de texto para generar y completar lenguaje. Ejemplo cotidiano: un procesador de texto que sugiere la siguiente frase al escribir un correo.
  • Agente: un sistema que no solo responde texto, sino que puede tomar acciones en un entorno —por ejemplo, un asistente que programa citas en tu calendario—.
  • Modelo multimodal: una inteligencia capaz de procesar varios tipos de información (texto, imágenes, etc.), como una app que entiende una foto y la describe en palabras.

Limitaciones y transparencia

OpenAI subraya que la verificación de estas demostraciones requiere revisión por pares y comunidad experta.

También puntualiza que algunas soluciones aún están bajo revisión y que hubo al menos una corrección de juicio sobre la validez de una respuesta (problema 2). La compañía invita a más interacción con la comunidad científica para mejorar los métodos de evaluación.

Nota de Transparencia

Esta nota fue generada 100% con IA. La fuente fue aprobada por Diario Occidente y el contenido final fue revisado por un miembro del equipo de redacción.

OpenAI publica intentos de prueba matemática y dice que al menos cinco podrían ser correctos

🔊 El Resumen de Noticias sobre Inteligencia Artificial e Innovación Tecnológica, aquí 👇🏻

OpenAI publica intentos de prueba matemática y dice que al menos cinco podrían ser correctos

Curaduría editorial

La curaduría y revisión editorial de estas notas está a cargo de Rosa María Agudelo Ayerbe, comunicadora social y periodista, con maestría en Transformación Digital y especialización en Inteligencia Artificial.

Desde su rol como líder del equipo de innovación y transformación digital del Diario Occidente, y a través de la unidad estratégica DO Tech, realiza un seguimiento permanente a las principales novedades en tecnología e inteligencia artificial a nivel global.

Estas notas se apoyan en un agente de investigación basado en inteligencia artificial, diseñado para monitorear semanalmente avances, lanzamientos y debates clave del sector.

El contenido es posteriormente leído, analizado, contextualizado y validado editorialmente antes de su publicación.

Este proceso forma parte del mecanismo de actualización continua que permite interpretar los desarrollos tecnológicos desde una mirada periodística, crítica y comprensible para audiencias no especializadas.


OpenAI publica intentos de prueba matemática y dice que al menos cinco podrían ser correctos

Comments

ads_top
Powered by Sindyk Content
Arriba