
Bienvenido al Prompt, la newsletter sobre Inteligencia Artificial escrita con un poco de Inteligencia Natural
”Hola prompters! Aquà estamos otra semana mÔs: 19 de Febrero de 2026. Newsletter #21.
La semana pasada fue la semana de Claude, con Opus 4.6, la Super Bowl y hasta la Fórmula 1. Casi podrĆa haber titulado ese post "Claude mi nuevo mejor amigo". Esta semana hay mĆ”s variedad: Google ha lanzado Gemini 3 Deep Think y ha reventado un benchmark que llevaba un aƱo siendo "el examen imposible" de la IA. OpenAI ha jubilado a GPT-4o, Anthropic ha sacado Sonnet 4.6 con nĆŗmeros que dan que pensar, Google ha actualizado su modelo Lyria que compone mĆŗsica. Y por Ćŗltimo tenemos a GPT-5.2 que ha descubierto una fórmula nueva de fĆsica de partĆculas que se les habĆa escapado a los humanos.
Semana cargada, asĆ que hoy cambiamos un poco el formato: tres noticias desarrolladas, una sección de pĆldoras rĆ”pidas para lo que merece mención pero no necesita tantos pĆ”rrafos, y como siempre, la historia de un personaje y la herramienta de la semana. Esta vez: Peter Steinberger, el austrĆaco que creó OpenClaw y acaba de fichar por OpenAI, y METR, el benchmark que nos hace darnos cuenta de quĆ© rĆ”pido evoluciona todo esto.
Y ya que esta semana tenemos despedidas y descubrimientos, la canción va de hilos que no se rompen, cosas que cambian y cosas que permanecen. PoĆ©tico, Āæno? Pues el investigador que se ha ido de Anthropic estarĆa orgulloso.
En la newsletter de hoyā¦
>>> Tres noticias destacadas + pĆldoras rĆ”pidas
š§ Gemini 3 Deep Think: Google lanza su modelo de razonamiento mĆ”s potente y ARC-AGI-2 queda obsoleto a los pocos meses de nacer
āļø GPT-5.2 hace fĆsica de verdad: Descubre una fórmula nueva para amplitudes de gluones que los fĆsicos llevaban dĆ©cadas sin encontrar
šŖ El jefe de seguridad de la IA de Anthropic dimite: y lo hace diciendo que ātodo estĆ” en peligroā. O se ha cansado de todo, o sabe cosas.
š PĆldoras: Adiós GPT-4o, Claude Sonnet 4.6 y Google Lyria 3
AdemÔs, en HistorIAs de la IA: Peter Steinberger, el tipo que ha construido Oplenclaw (o sea Clawdbot, o sea Moltbot), un proyecto que empezó en su casa, se hizo el mÔs viral de la historia en GitHub, y ahora le ha abierto las puertas de OpenAI. Y en la Herramienta de la semana: METR y cómo medir (de verdad) lo que la IA puede hacer.
Y ya que esta semana tenemos despedidas y descubrimientos, la canción va de hilos que no se rompen, cosas que cambian y cosas que permanecen. PoĆ©tico, Āæno? Pues el investigador que se ha ido de Anthropic estarĆa orgulloso.
¿Qué ha pasado esta semana en el mundo de la IA?
Google ha lanzado Gemini 3 Deep Think, y los nĆŗmeros son de esos que te hacen releer la tabla dos veces. Un 84,6% en ARC-AGI-2, el benchmark diseƱado especĆficamente para medir razonamiento abstracto y que durante un aƱo fue la pesadilla de los LLMs. Para ponerlo en contexto: hace un aƱo, los mejores modelos frontera sacaban alrededor del 5% en este test. Ochenta y tantos por ciento despuĆ©s, FranƧois Chollet, el creador de ARC-AGI, ha tenido que declarar su propio benchmark oficialmente obsoleto y dice que estĆ” preparando nuevos benchmarks. Para Ć©l, que estos modelos estĆ©n mejorando la puntuación en estos benchmarks tan rĆ”pidamente no es sino un signo de que los desarrolladores tienen en cuenta este tipo de pruebas durante el entrenamiento. Y que los benchmarks no son mĆ”s que un indicador de cuĆ”n grande es la brecha entre la inteligencia del modelo ya la AGI. Que llegan al 100% de ARC-AGI-2? Pues a crear el 4, o el 5, hasta que sea imposible crear un benchmark que muestre esa brecha.

Asà se ve la evolución en este benchmark. En apenas unos meses los modelos han pasado de sacar menos en un 10% a rozar el sobresaliente.
Todo esto viene del modo "Deep Think" de Google, que bĆ”sicamente le da al modelo mĆ”s tiempo para razonar antes de responder. No es una idea nueva āya lo vimos con los modelos de razonamiento tipo o1ā, pero Google lo ha llevado a otro nivel.

No es solo ARC-AGI. Gemini 3 Deep Think saca un 48,4% en Humanity's Last Exam āun benchmark creado por expertos humanos como "el examen definitivo"ā, un Elo de 3455 en Codeforces (que lo pondrĆa entre los mejores programadores competitivos del planeta), y medalla de oro en las olimpiadas internacionales de fĆsica y quĆmica.
La parte que siempre hay que mencionar: estƔ disponible solo para los suscriptores de AI Ultra, el plan de 275 euros al mes de Google. A este paso vamos a necesitar una hipoteca para usar IA frontier (en realidad no, porque el modelo que hoy es gratis es mejor que el que costaba tanto hace un aƱo).
Pero si Gemini ha demostrado que puede pensar mejor, lo que viene ahora demuestra que la IA puede descubrir, en algo tan difĆcil como la fĆsica de partĆculas.
OpenAI ha publicado que GPT-5.2 Pro ha conjeturado una fórmula completamente nueva para las amplitudes de dispersión de n gluones en su nivel mĆ”s elemental, a nivel Ć”rbol. Algo muy complicado, vaya, en resumen: los gluones son las partĆculas que mantienen unidos los quarks dentro de protones y neutrones ā los ladrillos de toda la materia. Calcular cómo interactĆŗan estas partĆculas (sus "amplitudes de dispersión") es uno de los problemas fundamentales de la fĆsica teórica. Y hay un tipo concreto de estas amplitudes, las llamadas "single-minus", que durante dĆ©cadas se pensó que eran cero. En realidad no es que haya nadie que hubiera sacado la fórmula DispersióndeGluones = blabla = 0, sino que el cĆ”lculo es tan tremendamente complejo (porque n gluones dan lugar a un crecimento mĆ”s que exponencial de tĆ©rminos que calcular), que se habĆa medio simplificado y haciendo ciertas asunciones, calculaban que tenĆa que dar cero.
Pues⦠no dan cero.
GPT-5.2 encontró unas expresiones que ā describió como "sorpendentemente simple". Una versión interna del modelo estuvo 12 horas trabajando de forma autónoma hasta producir una prueba formal de la conjetura. Los investigadores humanos del equipo ā de Princeton, Vanderbilt, Cambridge, Harvard y el propio OpenAI ā verificaron la prueba y vieron que GPT-5.2 habĆa simplificado el cĆ”lculo, volviendo el proceso de terriblemente dcompleto a ā"sorpendentemente simple" como ha destacado Nima Arkani-Hamed āuno de los fĆsicos teóricos mĆ”s importantes del mundo, del Institute for Advanced Study de Princeton.

Por si tienes curiosidad y no has oĆdo hablar de este campo nunca. Esto que ves aquĆ es el Diagrama de Feynman (fĆsico estadounidense que se llevó el Premio Nobel por su aporte a la formulación de la electrodinĆ”mica cuĆ”ntica usando este tipo de dibujitos). Este diagrama muestra un electrón y un positrón que se aniquilan (lo que pasa en el PET), produciendo un fotón (representado por la onda sinusoidal azul) que se convierte en un par quark-antiquark, despuĆ©s de lo cual el antiquark irradia un gluon representado por la hĆ©lice verde). Esto es sencillo de calcular para los que saben. Lo de los gluones ya⦠que lo haga ChatGPT
Esto no es un modelo resolviendo un examen. Esto es descubrimiento cientĆfico genuino que mucha gente muy buena no habĆa llegado a desarrollar, por la complejidad del cĆ”lculo. Un modelo encontrando algo que los humanos no habĆamos encontrado, en un campo con mĆ”s de 50 aƱos de investigación. Es la diferencia entre un estudiante que aprueba un examen y uno que publica un paper que cambia las reglas.
Y terminamos las noticias con algo mÔs silencioso pero ¿inquietante?. Mrinank Sharma )probablemente no os suena el nombre, pero era el que lideraba el equipo de Safeguards Research en Anthropic, o sea el equipo de Seguridad para que la IA no haga nada malo) dejó la empresa el 9 de febrero. Su carta de despedida es... rara cuanto menos.
Empieza reconociendo lo que logró: trabajar en la sicofancia de los modelos (ironĆas, justo lo que le pasó a GPT-4o, que esta semana ha sido jubilado en parte por eso), desarrollar defensas contra bioterrorismo asistido por IA, y escribir uno de los primeros "safety cases" formales. Todo importante. Y se sentĆa orgulloso de haber llegado a ello. Pero entonces la carta toma un giro:
> "El mundo estÔ en peligro. Y no solo por la IA, o las armas biológicas, sino por toda una serie de crisis interconectadas que se estÔn desplegando en este mismo momento."
Dice que quiere explorar un mĆ”ster en poesĆa y dedicarse a la "prĆ”ctica del habla valiente". Se despide con un poema de William Stafford sobre un hilo que sigues y al que no puedes soltar.

Esta es su foto de la web personal. AquĆ se le ve feliz. QuizĆ” se haya retirado para irse al monte a cultivar patatas y dedicarse a la poesĆa y el Ecstatic Dance, sus dos pasiones
Puede que no signifique nada mĆ”s que un investigador muy quemado que necesita un cambio. Pero cuando la persona encargada de la seguridad de estos modelos se va diciendo que "el mundo estĆ” en peligro" ā¦
š PĆldoras rĆ”pidas
Adiós GPT-4o (y GPT-4.1, y GPT-4.1 mini y GPT o4-mini)
OpenAI ha jubilado por fin a GPT-4o, el modelo que democratizó ChatGPT en 2024 pero que tambiĆ©n fue, segĆŗn los propios datos de OpenAI, el mĆ”s sicofante de su historia. ĀæSicofancia? Cuando un modelo te da la razón en todo, incluso en tus peores ideas. Le decĆas "creo que 2+2=5" y te respondĆa "Ā”QuĆ© perspectiva tan interesante!". Eso no es que fuera molesto, que tambiĆ©n, sino peligroso: estuvo vinculado a demandas por autolesión en adolescentes y episodios psicóticos documentados. Ya intentaron retirarlo en agosto de 2025, pero la reacción fue tan negativa que tuvieron que dar marcha atrĆ”s. HabĆa gente enganchada a ello, y hasta se crearon grupos de protesta y el hashtag #Keep4o. Esta vez sĆ, con solo un 0,1% de usuarios activos ā que suena a poco hasta que recuerdas que el 0.1% (de los 800 millones de usuarios que OpenAI dice que usan su chat) son 800.000 personas.
Anthropic presenta el nuevo Claude Sonnet 4.6
Anthropic ha sacado una nueva versión de Sonnet y los nĆŗmeros son bestiales: los usuarios beta de Claude Code lo prefieren sobre Sonnet 4.5 el 70% de las veces, y sobre Opus 4.5 el 59%. Mejor seguimiento de instrucciones, y el mismo contexto de 1M tokens que Opus 4.6 (en beta). Todo al mismo precio que Sonnet 4.5 ($3/$15 por millón de tokens). Pero lo que mĆ”s me llama la atención es el salto en computer use: la capacidad del modelo de manejar un ordenador como lo harĆa una persona (una que sepa manejarlo) abrir apps, hacer clics, navegar interfaces reales sin necesidad de APIs o automatizaciones a medida. En OSWorld, un entorno de pruebas con aplicaciones de verdad, Sonnet 4.6 ya roza los resultados de Opus. Y Anthropic reconoce abiertamente los riesgos: prompt injection, manipulación, todo lo que pasa cuando dejas a una IA suelta con tu ratón. Pero el progreso es innegable. Se convierte en el modelo por defecto del plan gratuito de Claude. La lĆnea entre Sonnet y Opus se difumina cada versión un poco mĆ”s.

Venga que hacĆa tiempo que no ponĆamos una de estas tablas que comparan mil benchmarks con otros modelos similares
Deepmind lanza Google Lyria 3
Google ha lanzado Lyria 3, su modelo de generación de mĆŗsica mĆ”s avanzado, integrado directamente en Gemini. Le describes lo que quieres ("una balada cómica de R&B sobre un calcetĆn que encuentra a su pareja", dice el ejemplo de Google, que es delicioso) y en segundos tienes un track con letra, voces realistas y producción que suena sorprendentemente profesional ā pop, funk, Motown, lo que le pidas, en cualquier idioma. ĀæDiferencia con Suno? Puees por ejemplo en Lyria 3 puedes subir una foto y que componga algo inspirado en ella, que es de esas cosas que pruebas por curiosidad y acabas perdiendo media hora, pero no sĆ© si tiene real utilidad. Lo han desarrollado con productores y mĆŗsicos reales para que entienda musicalidad de verdad: ritmo, arreglos, dinĆ”mica. Gratis para todos los usuarios, con marcas de agua SynthID (si no sabes lo que es SynthID, Ā”aquĆ te lo explico!) Y tambiĆ©n tienen Lyria RealTime para generación interactiva en tiempo real y Dream Track para YouTube Shorts. Que yo creo que ahĆ es donde querĆan llegar. Un modelo que ayude a generar esa musica sin copyright que tanto se usa en vĆdeos de Youtube y plataformas o formatos similares para no perder la monetización.No va a sustituir a mĆŗsicos, pero como herramienta creativa para explorar ideas o ponerle sonido a un proyecto rĆ”pido, es un salto enorme respecto a lo que habĆa.
Modelos que piensan mĆ”s profundo, IAs que descubren fĆsica, un jefe de seguridad que se va con poesĆa, y ahora mĆ”quinas que componen mĆŗsica. Todo esto lo hacen los laboratorios. Pero esta semana tambiĆ©n hay una historia sobre alguien que no pertenece pertenecĆa a ningĆŗn lab ā un desarrollador que llevaba tres aƱos sin escribir una lĆnea de código por hartazgo y que de repente construyó el agente de IA mĆ”s viral de GitHub.
HistorIAs de la IA. Hoy: š¤ QuiĆ©n es quiĆ©n š¤
Peter Steinberger, el austrĆaco que construyó el agente mĆ”s viral de la historia
Peter Steinberger es un desarrollador de Viena que durante 13 aƱos dirigió PSPDFKit, un framework para renderizar PDFs que acabó instalado en mil millones de dispositivos. Software invisible: cada vez que abrĆs un PDF en cualquier app, probablemente usĆ”is algo que Ć©l construyó. Un dĆa se hartó, se quemó y vendió la empresa por varios millones. "Me sentĆa como Austin Powers cuando le sacan el mojo", dice en la entrevista con Lex Fridman que protagonizó la semana pasada (tres horas y pico de entrevista, pero merece la pena). Se fue de viaje, no tocó código en tres aƱos, y descubrió que no hacer nada tambiĆ©n aburre casi mĆ”s.
Entonces llegó la Ia. Y llegaron los agentes de IA. Desde abril del aƱo pasado querĆa un asistente personal con IA pero esperaba que algĆŗn lab lo construyera. Nadie lo hizo. AsĆ que en noviembre, frustrado, lo hizo Ć©l: conectó WhatsApp con la CLI de Claude Code. Un mensaje entra, Claude Code lo procesa, la respuesta vuelve a WhatsApp. Eso fue el prototipo inicial, y lo montó en una hora. Pero lo que vino despuĆ©s fue meses de trabajo obsesivo, durmiendo cada vez menos, con entre 4 y 10 agentes corriendo en paralelo. Solo en enero hizo 6.600 commits. Y Ć©ste era uno de los mĆ”s de cuarenta proyectos que llevaba haciendo ese aƱo.

Captura de su web personal. Abajo en verde se ve su actividad programando en sus proyectos. cada cuadrito es un dĆa y cuando mĆ”s oscuro mĆ”s ācommitsā o āguardadosā hizo de su trabajo. Algo tuvo que ver en Abril que ya desde entonces no paró
DespuĆ©s de varios cambios de nombre ā WA-Relay, Claude's, Clawdbot (Anthropic le pidió amablemente que lo cambiara) ā finalmente nació OpenClaw, como recordarĆ©is de los dos Ćŗltimos posts de la newsletter. Y no ha parado de crecer. Hoy tiene mĆ”s de 211.000 estrellas en GitHub ā el repositorio con el crecimiento mĆ”s rĆ”pido de la historia de la plataforma.
¿Qué hace OpenClaw? Es un agente de IA autónomo y open source que vive en tu ordenador, habla contigo por WhatsApp, Telegram o Discord, y hace cosas: desde pedir comida hasta escribir código, leer tus emails o controlar tu navegador. Tiene tanto poder como tú le quieras dar (con los problemas de seguridad qeu puede conllevar si no tienes cuidado).
Y aquĆ es donde la historia de Peter deja de ser solo una noticia tech y se convierte en algo mĆ”s interesante. Porque este no es el fundador de una startup de Silicon Valley con 50 millones de funding y un equipo de 30 personas. Es un tĆo en su casa de Viena, solo, con tiempo y con ganas, que construyó algo que ni OpenAI ni Anthropic ni Google habĆan conseguido hacer: un agente personal que la gente de verdad quiere usar. Los laboratorios llevan aƱos hablando de agentes, publicando papers, prometiendo demos. Y al final lo que se ha hecho viral es el proyecto de un desarrollador quemado que lo empezó porque se aburrĆa. Dice mucho sobre el momento que vivimos: las herramientas son tan potentes que una persona con experiencia y dedicación puede competir con empresas de miles de millones.
Pero tambiĆ©n opiniones fuertes. Peter dice que el tĆ©rmino āvibe codingā es casi un insulto, que se peude llegar muy lejos haciendo esto y no es Ćŗnicamente para gente que no sabe quĆ© hacer y pregutna a un chatbot para que programe por ellos. Ćl prefiere llamarlo "ingenierĆa agĆ©ntica". Aunque admite que despuĆ©s de las 3 de la maƱana pasa al vibe coding "y tiene remordimientos al dĆa siguiente".
Sobre el futuro: hace unas semanas recibió ofertas de Meta y de OpenAI. Zuckerberg y Altman usaron OpenClaw durante semanas y le llamaron personalmente para intentar cortejarle. En la entrevista con Fridman aĆŗn no habĆa decidido, pero el 14 de febrero lo hizo oficial en su blog: se va a OpenAI. Su condición innegociable: que el proyecto siga siendo open source. Y cuando le preguntan por quĆ© no montar una empresa, su respuesta es muy Peter: "Ya lo hice. No me emociona. Quiero pasĆ”rmelo bien y tener impacto. Me da igual el dinero".

Miradle quƩ feliz, haciendo la garrita de la langosta que ha creado, con sus nuevos compaƱeros de OpenAI
Y cerramos la newsletter con la herramienta de la semana. ¿Cómo sabemos realmente lo rÔpido que estÔ avanzando todo esto? Pues hay una organización que se dedica precisamente a medirlo: METR.
š La Herramienta de la semana š
METR: midiendo a quƩ velocidad avanza la IA
METR (Model Evaluation & Threat Research) es una organización sin Ć”nimo de lucro que se dedica a algo que suena simple pero es tremendamente difĆcil: medir de forma rigurosa lo que la IA puede hacer de verdad. No benchmarks acadĆ©micos tipo "saca un 90% en tal examen", sino tareas reales, completas, de principio a fin.
Su enfoque es elegante. Cogen una serie de tareas de dificultad creciente ā desde preguntas rĆ”pidas de minutos hasta desafĆos de programación de varias horas ā y miden cuĆ”nto tardarĆa un humano experto en completar cada una. Luego sueltan a los modelos y ven hasta dónde llegan. El resultado lo llaman "horizonte temporal": la duración (medida en tiempo humano) de las tareas que un modelo puede completar con un 50% de fiabilidad (tambiĆ©n miden para un 80%).
Algunos resultados: 1) los mejores modelos actuales aciertan casi el 100% de tareas que a un humano le llevan menos de 4 minutos, pero caen por debajo del 10% en tareas de mĆ”s de 4 horas. Es decir, la IA ya es fiable para lo rĆ”pido, pero todavĆa se pierde en lo complejo. 2) y mĆ”s importante: ese horizonte se estĆ” duplicando cada 7 meses. De forma consistente. Durante los Ćŗltimos 6 aƱos.

Para ponerlo en perspectiva: en 2020, GPT-3 apenas podĆa completar tareas de segundos. Hoy, los modelos frontier rondan tareas de minutos a pocas horas. Si la tendencia continĆŗa (y METR insiste en que es un "si" grande) en menos de una dĆ©cada estarĆamos hablando de agentes capaces de completar proyectos de semanas de forma autónoma. Bueno, habrĆ” que ver si es tan facil de extrapolar todo estoā¦
Pero lo que hace especial a METR no es solo el dato, sino la transparencia: todo su código, datos y metodologĆa estĆ”n publicados en abierto. AsĆ que te permiten verificar sus conclusiones en vez de pedirte que te las creas. En un campo donde todos los labs publican benchmarks que los hacen quedar bien, tener un medidor independiente no viene mal.
Y la conclusión prÔctica para los que leemos esto cada semana: cuando sientas que todo se acelera, no es solo impresión. Hay quien lo estÔ midiendo, y los números dicen exactamente eso. Y si no te lo crees, vuelve a intentar hacer o pedir a ChatGPT, Claude o Gemini aquello que hace 6 meses pediste y no te convenció. Te sorprenderÔs.
Y hasta aquĆ la entrega #21 de la Newsletter.
Otras semana de las que te dejan pensando. Google ha reventado benchmarks que parecĆan imposibles, OpenAI ha descubierto fĆsica que llevĆ”bamos dĆ©cadas sin ver, Anthropic pierde a su jefe de seguridad que se despide citando poesĆa, y Peter Steinberger, que construyó un agente en su casa que le ha abierto las puertas de OpenAI⦠Recuerda que puedes valorar y comentar haciendo click en alguno de estos enlaces, Ā”y que leo todo!
š§ š§ š§ š§ š§ Ā”Alimento para la mente!
š§ š§ š§ Tienes que pensarlo mejor
š§ Han faltado neuronas
Y si quieres que tus amigos o familiares estĆ©n tan al dĆa de la IA como tĆŗ, Ā”puedes compartirles esta newsletter o mi blog sobre IA! Uno con contenido de actualidad, y otro con artĆculos mĆ”s elaborados, que te ayudarĆ”n a entender la IA desde otro punto de vista.
>>> Nos vemos en la siguiente entrega š¤
>>> Ā” Hasta prompto !

