Bienvenido al Prompt, la newsletter sobre Inteligencia Artificial escrita con un poco de Inteligencia Natural

”Hola prompters! Aquí estamos otra semana mÔs: 19 de Febrero de 2026. Newsletter #21.

La semana pasada fue la semana de Claude, con Opus 4.6, la Super Bowl y hasta la Fórmula 1. Casi podría haber titulado ese post "Claude mi nuevo mejor amigo". Esta semana hay mÔs variedad: Google ha lanzado Gemini 3 Deep Think y ha reventado un benchmark que llevaba un año siendo "el examen imposible" de la IA. OpenAI ha jubilado a GPT-4o, Anthropic ha sacado Sonnet 4.6 con números que dan que pensar, Google ha actualizado su modelo Lyria que compone música. Y por último tenemos a GPT-5.2 que ha descubierto una fórmula nueva de física de partículas que se les había escapado a los humanos.

Semana cargada, así que hoy cambiamos un poco el formato: tres noticias desarrolladas, una sección de píldoras rÔpidas para lo que merece mención pero no necesita tantos pÔrrafos, y como siempre, la historia de un personaje y la herramienta de la semana. Esta vez: Peter Steinberger, el austríaco que creó OpenClaw y acaba de fichar por OpenAI, y METR, el benchmark que nos hace darnos cuenta de qué rÔpido evoluciona todo esto.

Y ya que esta semana tenemos despedidas y descubrimientos, la canción va de hilos que no se rompen, cosas que cambian y cosas que permanecen. Poético, ¿no? Pues el investigador que se ha ido de Anthropic estaría orgulloso.

En la newsletter de hoy…

>>> Tres noticias destacadas + pƭldoras rƔpidas

🧠 Gemini 3 Deep Think: Google lanza su modelo de razonamiento mÔs potente y ARC-AGI-2 queda obsoleto a los pocos meses de nacer
āš›ļø GPT-5.2 hace fĆ­sica de verdad: Descubre una fórmula nueva para amplitudes de gluones que los fĆ­sicos llevaban dĆ©cadas sin encontrar
🚪 El jefe de seguridad de la IA de Anthropic dimite: y lo hace diciendo que ā€œtodo estĆ” en peligroā€. O se ha cansado de todo, o sabe cosas.

šŸ’Š PĆ­ldoras: Adiós GPT-4o, Claude Sonnet 4.6 y Google Lyria 3

AdemÔs, en HistorIAs de la IA: Peter Steinberger, el tipo que ha construido Oplenclaw (o sea Clawdbot, o sea Moltbot), un proyecto que empezó en su casa, se hizo el mÔs viral de la historia en GitHub, y ahora le ha abierto las puertas de OpenAI. Y en la Herramienta de la semana: METR y cómo medir (de verdad) lo que la IA puede hacer.

Y ya que esta semana tenemos despedidas y descubrimientos, la canción va de hilos que no se rompen, cosas que cambian y cosas que permanecen. Poético, ¿no? Pues el investigador que se ha ido de Anthropic estaría orgulloso.

¿Qué ha pasado esta semana en el mundo de la IA?

Google ha lanzado Gemini 3 Deep Think, y los números son de esos que te hacen releer la tabla dos veces. Un 84,6% en ARC-AGI-2, el benchmark diseñado específicamente para medir razonamiento abstracto y que durante un año fue la pesadilla de los LLMs. Para ponerlo en contexto: hace un año, los mejores modelos frontera sacaban alrededor del 5% en este test. Ochenta y tantos por ciento después, François Chollet, el creador de ARC-AGI, ha tenido que declarar su propio benchmark oficialmente obsoleto y dice que estÔ preparando nuevos benchmarks. Para él, que estos modelos estén mejorando la puntuación en estos benchmarks tan rÔpidamente no es sino un signo de que los desarrolladores tienen en cuenta este tipo de pruebas durante el entrenamiento. Y que los benchmarks no son mÔs que un indicador de cuÔn grande es la brecha entre la inteligencia del modelo ya la AGI. Que llegan al 100% de ARC-AGI-2? Pues a crear el 4, o el 5, hasta que sea imposible crear un benchmark que muestre esa brecha.

Así se ve la evolución en este benchmark. En apenas unos meses los modelos han pasado de sacar menos en un 10% a rozar el sobresaliente.

Todo esto viene del modo "Deep Think" de Google, que bĆ”sicamente le da al modelo mĆ”s tiempo para razonar antes de responder. No es una idea nueva —ya lo vimos con los modelos de razonamiento tipo o1—, pero Google lo ha llevado a otro nivel.

No es solo ARC-AGI. Gemini 3 Deep Think saca un 48,4% en Humanity's Last Exam —un benchmark creado por expertos humanos como "el examen definitivo"—, un Elo de 3455 en Codeforces (que lo pondrĆ­a entre los mejores programadores competitivos del planeta), y medalla de oro en las olimpiadas internacionales de fĆ­sica y quĆ­mica.

La parte que siempre hay que mencionar: estƔ disponible solo para los suscriptores de AI Ultra, el plan de 275 euros al mes de Google. A este paso vamos a necesitar una hipoteca para usar IA frontier (en realidad no, porque el modelo que hoy es gratis es mejor que el que costaba tanto hace un aƱo).

Pero si Gemini ha demostrado que puede pensar mejor, lo que viene ahora demuestra que la IA puede descubrir, en algo tan difĆ­cil como la fĆ­sica de partĆ­culas.

OpenAI ha publicado que GPT-5.2 Pro ha conjeturado una fórmula completamente nueva para las amplitudes de dispersión de n gluones en su nivel mĆ”s elemental, a nivel Ć”rbol. Algo muy complicado, vaya, en resumen: los gluones son las partĆ­culas que mantienen unidos los quarks dentro de protones y neutrones — los ladrillos de toda la materia. Calcular cómo interactĆŗan estas partĆ­culas (sus "amplitudes de dispersión") es uno de los problemas fundamentales de la fĆ­sica teórica. Y hay un tipo concreto de estas amplitudes, las llamadas "single-minus", que durante dĆ©cadas se pensó que eran cero. En realidad no es que haya nadie que hubiera sacado la fórmula DispersióndeGluones = blabla = 0, sino que el cĆ”lculo es tan tremendamente complejo (porque n gluones dan lugar a un crecimento mĆ”s que exponencial de tĆ©rminos que calcular), que se habĆ­a medio simplificado y haciendo ciertas asunciones, calculaban que tenĆ­a que dar cero.

Pues… no dan cero.

GPT-5.2 encontró unas expresiones que — describió como "sorpendentemente simple". Una versión interna del modelo estuvo 12 horas trabajando de forma autónoma hasta producir una prueba formal de la conjetura. Los investigadores humanos del equipo — de Princeton, Vanderbilt, Cambridge, Harvard y el propio OpenAI — verificaron la prueba y vieron que GPT-5.2 habĆ­a simplificado el cĆ”lculo, volviendo el proceso de terriblemente dcompleto a ā€œ"sorpendentemente simple" como ha destacado Nima Arkani-Hamed —uno de los fĆ­sicos teóricos mĆ”s importantes del mundo, del Institute for Advanced Study de Princeton.

Por si tienes curiosidad y no has oĆ­do hablar de este campo nunca. Esto que ves aquĆ­ es el Diagrama de Feynman (fĆ­sico estadounidense que se llevó el Premio Nobel por su aporte a la formulación de la electrodinĆ”mica cuĆ”ntica usando este tipo de dibujitos). Este diagrama muestra un electrón y un positrón que se aniquilan (lo que pasa en el PET), produciendo un fotón (representado por la onda sinusoidal azul) que se convierte en un par quark-antiquark, despuĆ©s de lo cual el antiquark irradia un gluon representado por la hĆ©lice verde). Esto es sencillo de calcular para los que saben. Lo de los gluones ya… que lo haga ChatGPT

Esto no es un modelo resolviendo un examen. Esto es descubrimiento científico genuino que mucha gente muy buena no había llegado a desarrollar, por la complejidad del cÔlculo. Un modelo encontrando algo que los humanos no habíamos encontrado, en un campo con mÔs de 50 años de investigación. Es la diferencia entre un estudiante que aprueba un examen y uno que publica un paper que cambia las reglas.

Y terminamos las noticias con algo mÔs silencioso pero ¿inquietante?. Mrinank Sharma )probablemente no os suena el nombre, pero era el que lideraba el equipo de Safeguards Research en Anthropic, o sea el equipo de Seguridad para que la IA no haga nada malo) dejó la empresa el 9 de febrero. Su carta de despedida es... rara cuanto menos.

Empieza reconociendo lo que logró: trabajar en la sicofancia de los modelos (ironías, justo lo que le pasó a GPT-4o, que esta semana ha sido jubilado en parte por eso), desarrollar defensas contra bioterrorismo asistido por IA, y escribir uno de los primeros "safety cases" formales. Todo importante. Y se sentía orgulloso de haber llegado a ello. Pero entonces la carta toma un giro:

> "El mundo estÔ en peligro. Y no solo por la IA, o las armas biológicas, sino por toda una serie de crisis interconectadas que se estÔn desplegando en este mismo momento."

Dice que quiere explorar un mƔster en poesƭa y dedicarse a la "prƔctica del habla valiente". Se despide con un poema de William Stafford sobre un hilo que sigues y al que no puedes soltar.

Esta es su foto de la web personal. AquĆ­ se le ve feliz. QuizĆ” se haya retirado para irse al monte a cultivar patatas y dedicarse a la poesĆ­a y el Ecstatic Dance, sus dos pasiones

Puede que no signifique nada mĆ”s que un investigador muy quemado que necesita un cambio. Pero cuando la persona encargada de la seguridad de estos modelos se va diciendo que "el mundo estĆ” en peligro" …

šŸ’Š PĆ­ldoras rĆ”pidas

Adiós GPT-4o (y GPT-4.1, y GPT-4.1 mini y GPT o4-mini)
OpenAI ha jubilado por fin a GPT-4o, el modelo que democratizó ChatGPT en 2024 pero que tambiĆ©n fue, segĆŗn los propios datos de OpenAI, el mĆ”s sicofante de su historia. ĀæSicofancia? Cuando un modelo te da la razón en todo, incluso en tus peores ideas. Le decĆ­as "creo que 2+2=5" y te respondĆ­a "Ā”QuĆ© perspectiva tan interesante!". Eso no es que fuera molesto, que tambiĆ©n, sino peligroso: estuvo vinculado a demandas por autolesión en adolescentes y episodios psicóticos documentados. Ya intentaron retirarlo en agosto de 2025, pero la reacción fue tan negativa que tuvieron que dar marcha atrĆ”s. HabĆ­a gente enganchada a ello, y hasta se crearon grupos de protesta y el hashtag #Keep4o. Esta vez sĆ­, con solo un 0,1% de usuarios activos — que suena a poco hasta que recuerdas que el 0.1% (de los 800 millones de usuarios que OpenAI dice que usan su chat) son 800.000 personas.

Anthropic presenta el nuevo Claude Sonnet 4.6
Anthropic ha sacado una nueva versión de Sonnet y los números son bestiales: los usuarios beta de Claude Code lo prefieren sobre Sonnet 4.5 el 70% de las veces, y sobre Opus 4.5 el 59%. Mejor seguimiento de instrucciones, y el mismo contexto de 1M tokens que Opus 4.6 (en beta). Todo al mismo precio que Sonnet 4.5 ($3/$15 por millón de tokens). Pero lo que mÔs me llama la atención es el salto en computer use: la capacidad del modelo de manejar un ordenador como lo haría una persona (una que sepa manejarlo) abrir apps, hacer clics, navegar interfaces reales sin necesidad de APIs o automatizaciones a medida. En OSWorld, un entorno de pruebas con aplicaciones de verdad, Sonnet 4.6 ya roza los resultados de Opus. Y Anthropic reconoce abiertamente los riesgos: prompt injection, manipulación, todo lo que pasa cuando dejas a una IA suelta con tu ratón. Pero el progreso es innegable. Se convierte en el modelo por defecto del plan gratuito de Claude. La línea entre Sonnet y Opus se difumina cada versión un poco mÔs.

Venga que hacĆ­a tiempo que no ponĆ­amos una de estas tablas que comparan mil benchmarks con otros modelos similares

Deepmind lanza Google Lyria 3
Google ha lanzado Lyria 3, su modelo de generación de mĆŗsica mĆ”s avanzado, integrado directamente en Gemini. Le describes lo que quieres ("una balada cómica de R&B sobre un calcetĆ­n que encuentra a su pareja", dice el ejemplo de Google, que es delicioso) y en segundos tienes un track con letra, voces realistas y producción que suena sorprendentemente profesional — pop, funk, Motown, lo que le pidas, en cualquier idioma. ĀæDiferencia con Suno? Puees por ejemplo en Lyria 3 puedes subir una foto y que componga algo inspirado en ella, que es de esas cosas que pruebas por curiosidad y acabas perdiendo media hora, pero no sĆ© si tiene real utilidad. Lo han desarrollado con productores y mĆŗsicos reales para que entienda musicalidad de verdad: ritmo, arreglos, dinĆ”mica. Gratis para todos los usuarios, con marcas de agua SynthID (si no sabes lo que es SynthID, Ā”aquĆ­ te lo explico!) Y tambiĆ©n tienen Lyria RealTime para generación interactiva en tiempo real y Dream Track para YouTube Shorts. Que yo creo que ahĆ­ es donde querĆ­an llegar. Un modelo que ayude a generar esa musica sin copyright que tanto se usa en vĆ­deos de Youtube y plataformas o formatos similares para no perder la monetización.No va a sustituir a mĆŗsicos, pero como herramienta creativa para explorar ideas o ponerle sonido a un proyecto rĆ”pido, es un salto enorme respecto a lo que habĆ­a.

Modelos que piensan mĆ”s profundo, IAs que descubren fĆ­sica, un jefe de seguridad que se va con poesĆ­a, y ahora mĆ”quinas que componen mĆŗsica. Todo esto lo hacen los laboratorios. Pero esta semana tambiĆ©n hay una historia sobre alguien que no pertenece pertenecĆ­a a ningĆŗn lab — un desarrollador que llevaba tres aƱos sin escribir una lĆ­nea de código por hartazgo y que de repente construyó el agente de IA mĆ”s viral de GitHub.

HistorIAs de la IA. Hoy: šŸ‘¤ QuiĆ©n es quiĆ©n šŸ‘¤
Peter Steinberger, el austríaco que construyó el agente mÔs viral de la historia

Peter Steinberger es un desarrollador de Viena que durante 13 años dirigió PSPDFKit, un framework para renderizar PDFs que acabó instalado en mil millones de dispositivos. Software invisible: cada vez que abrís un PDF en cualquier app, probablemente usÔis algo que él construyó. Un día se hartó, se quemó y vendió la empresa por varios millones. "Me sentía como Austin Powers cuando le sacan el mojo", dice en la entrevista con Lex Fridman que protagonizó la semana pasada (tres horas y pico de entrevista, pero merece la pena). Se fue de viaje, no tocó código en tres años, y descubrió que no hacer nada también aburre casi mÔs.

Entonces llegó la Ia. Y llegaron los agentes de IA. Desde abril del año pasado quería un asistente personal con IA pero esperaba que algún lab lo construyera. Nadie lo hizo. Así que en noviembre, frustrado, lo hizo él: conectó WhatsApp con la CLI de Claude Code. Un mensaje entra, Claude Code lo procesa, la respuesta vuelve a WhatsApp. Eso fue el prototipo inicial, y lo montó en una hora. Pero lo que vino después fue meses de trabajo obsesivo, durmiendo cada vez menos, con entre 4 y 10 agentes corriendo en paralelo. Solo en enero hizo 6.600 commits. Y éste era uno de los mÔs de cuarenta proyectos que llevaba haciendo ese año.

Captura de su web personal. Abajo en verde se ve su actividad programando en sus proyectos. cada cuadrito es un dĆ­a y cuando mĆ”s oscuro mĆ”s ā€œcommitsā€ o ā€œguardadosā€ hizo de su trabajo. Algo tuvo que ver en Abril que ya desde entonces no paró

DespuĆ©s de varios cambios de nombre — WA-Relay, Claude's, Clawdbot (Anthropic le pidió amablemente que lo cambiara) — finalmente nació OpenClaw, como recordarĆ©is de los dos Ćŗltimos posts de la newsletter. Y no ha parado de crecer. Hoy tiene mĆ”s de 211.000 estrellas en GitHub — el repositorio con el crecimiento mĆ”s rĆ”pido de la historia de la plataforma.

¿Qué hace OpenClaw? Es un agente de IA autónomo y open source que vive en tu ordenador, habla contigo por WhatsApp, Telegram o Discord, y hace cosas: desde pedir comida hasta escribir código, leer tus emails o controlar tu navegador. Tiene tanto poder como tú le quieras dar (con los problemas de seguridad qeu puede conllevar si no tienes cuidado).

Y aquí es donde la historia de Peter deja de ser solo una noticia tech y se convierte en algo mÔs interesante. Porque este no es el fundador de una startup de Silicon Valley con 50 millones de funding y un equipo de 30 personas. Es un tío en su casa de Viena, solo, con tiempo y con ganas, que construyó algo que ni OpenAI ni Anthropic ni Google habían conseguido hacer: un agente personal que la gente de verdad quiere usar. Los laboratorios llevan años hablando de agentes, publicando papers, prometiendo demos. Y al final lo que se ha hecho viral es el proyecto de un desarrollador quemado que lo empezó porque se aburría. Dice mucho sobre el momento que vivimos: las herramientas son tan potentes que una persona con experiencia y dedicación puede competir con empresas de miles de millones.

Pero tambiĆ©n opiniones fuertes. Peter dice que el tĆ©rmino ā€œvibe codingā€ es casi un insulto, que se peude llegar muy lejos haciendo esto y no es Ćŗnicamente para gente que no sabe quĆ© hacer y pregutna a un chatbot para que programe por ellos. Ɖl prefiere llamarlo "ingenierĆ­a agĆ©ntica". Aunque admite que despuĆ©s de las 3 de la maƱana pasa al vibe coding "y tiene remordimientos al dĆ­a siguiente".

Sobre el futuro: hace unas semanas recibió ofertas de Meta y de OpenAI. Zuckerberg y Altman usaron OpenClaw durante semanas y le llamaron personalmente para intentar cortejarle. En la entrevista con Fridman aún no había decidido, pero el 14 de febrero lo hizo oficial en su blog: se va a OpenAI. Su condición innegociable: que el proyecto siga siendo open source. Y cuando le preguntan por qué no montar una empresa, su respuesta es muy Peter: "Ya lo hice. No me emociona. Quiero pasÔrmelo bien y tener impacto. Me da igual el dinero".

Miradle quƩ feliz, haciendo la garrita de la langosta que ha creado, con sus nuevos compaƱeros de OpenAI

Y cerramos la newsletter con la herramienta de la semana. ¿Cómo sabemos realmente lo rÔpido que estÔ avanzando todo esto? Pues hay una organización que se dedica precisamente a medirlo: METR.

šŸ›  La Herramienta de la semana šŸ› 
METR: midiendo a quƩ velocidad avanza la IA

METR (Model Evaluation & Threat Research) es una organización sin Ônimo de lucro que se dedica a algo que suena simple pero es tremendamente difícil: medir de forma rigurosa lo que la IA puede hacer de verdad. No benchmarks académicos tipo "saca un 90% en tal examen", sino tareas reales, completas, de principio a fin.

Su enfoque es elegante. Cogen una serie de tareas de dificultad creciente — desde preguntas rĆ”pidas de minutos hasta desafĆ­os de programación de varias horas — y miden cuĆ”nto tardarĆ­a un humano experto en completar cada una. Luego sueltan a los modelos y ven hasta dónde llegan. El resultado lo llaman "horizonte temporal": la duración (medida en tiempo humano) de las tareas que un modelo puede completar con un 50% de fiabilidad (tambiĆ©n miden para un 80%).

Algunos resultados: 1) los mejores modelos actuales aciertan casi el 100% de tareas que a un humano le llevan menos de 4 minutos, pero caen por debajo del 10% en tareas de mÔs de 4 horas. Es decir, la IA ya es fiable para lo rÔpido, pero todavía se pierde en lo complejo. 2) y mÔs importante: ese horizonte se estÔ duplicando cada 7 meses. De forma consistente. Durante los últimos 6 años.

Para ponerlo en perspectiva: en 2020, GPT-3 apenas podĆ­a completar tareas de segundos. Hoy, los modelos frontier rondan tareas de minutos a pocas horas. Si la tendencia continĆŗa (y METR insiste en que es un "si" grande) en menos de una dĆ©cada estarĆ­amos hablando de agentes capaces de completar proyectos de semanas de forma autónoma. Bueno, habrĆ” que ver si es tan facil de extrapolar todo esto…

Pero lo que hace especial a METR no es solo el dato, sino la transparencia: todo su código, datos y metodología estÔn publicados en abierto. Así que te permiten verificar sus conclusiones en vez de pedirte que te las creas. En un campo donde todos los labs publican benchmarks que los hacen quedar bien, tener un medidor independiente no viene mal.

Y la conclusión prÔctica para los que leemos esto cada semana: cuando sientas que todo se acelera, no es solo impresión. Hay quien lo estÔ midiendo, y los números dicen exactamente eso. Y si no te lo crees, vuelve a intentar hacer o pedir a ChatGPT, Claude o Gemini aquello que hace 6 meses pediste y no te convenció. Te sorprenderÔs.

Y hasta aquĆ­ la entrega #21 de la Newsletter.

Otras semana de las que te dejan pensando. Google ha reventado benchmarks que parecĆ­an imposibles, OpenAI ha descubierto fĆ­sica que llevĆ”bamos dĆ©cadas sin ver, Anthropic pierde a su jefe de seguridad que se despide citando poesĆ­a, y Peter Steinberger, que construyó un agente en su casa que le ha abierto las puertas de OpenAI… Recuerda que puedes valorar y comentar haciendo click en alguno de estos enlaces, Ā”y que leo todo!

🧠 🧠 🧠 🧠 🧠 ”Alimento para la mente!
🧠 🧠 🧠 Tienes que pensarlo mejor
🧠 Han faltado neuronas

Y si quieres que tus amigos o familiares estén tan al día de la IA como tú, ”puedes compartirles esta newsletter o mi blog sobre IA! Uno con contenido de actualidad, y otro con artículos mÔs elaborados, que te ayudarÔn a entender la IA desde otro punto de vista.

ā

>>> Nos vemos en la siguiente entrega šŸ¤

>>> Ā” Hasta prompto !

Carlos Velasco | >>> El Prompt

>>> TambiƩn puedes compartir la newsletter con tus seres queridos con este link.
>>> O aƱadirla a tu RSS feed con este link

ĀæAlgo que decir?

Avatar

or to participate

Posts Recomendados