
Bienvenido al Prompt, la newsletter sobre Inteligencia Artificial escrita con un poco de Inteligencia Natural
ÂĄHola suscriptores! 11 de Septiembre (segunda newsletter del mes) y, de nuevo, no han faltado noticias de las que hablar. Vamos con ellas, y despuĂ©s⊠¥nueva secciĂłn đ„ł !
En la newsletter de hoyâŠ:
>>> Tres noticias destacadas
đž Trump reĂșne en una cena a (casi) todos los CEOS de las grandes tech AI de EEUU
đ”âđ« OpenAI publica un artĂculo sobre por quĂ© los modelos alucinan
đšđł Anthropic cierra la puerta a China: ânaciĂłn adversariaâ.
>>> HistorIAs de la IA
đ€ QuiĂ©n es quiĂ©n: Alexandr Wang, un Supercerebro para crear la Superinteligencia
>>> Una herramienta
đ LM Arena. Donde los chatbots luchan anĂłnimos por el tĂtulo
¿Qué ha pasado esta semana en el mundo de la IA?
Donald Trump organizĂł el pasado viernes 5 de Septiembre una cena a la que fueron invitados todos los lĂderes de las grandes tech involucradas en IA. Aunque mĂĄs que cena, aquello parecĂa un concurso de âQuiĂ©n da mĂĄs por la IA americanaâ. Oficialmente, segĂșn el comunicado de la Casa Blanca, se trataba de âalinear al sector tecnolĂłgico con la estrategia gubernamental para consolidad el dominio estadounidense en IAâ. Y tambiĂ©n, dicen âse tratĂł de una colaboraciĂłn pĂșblico-privada para acelerar la innovaciĂłn y expansiĂłn de infraestructura tecnolĂłgica, en el marco del plan estratĂ©gico nacional denominado AI Action Planâ. Ese mismo dĂa âLa Primera Dama impulsĂł complementariamente una agenda educativa basada en IA para preparar a las futuras generacionesâ.
Dicho de otro modo, menos propagandĂstico: pasĂł lista y reuniĂł a todos los CEOs de las grandes tecnolĂłgicas en una cena donde, uno por uno, fueron 1) agradeciendo ser invitados, 2) elogiando el papel de Trump en la economĂa y el apoyo al mercado y la tecnologĂa y 3) diciendo cuĂĄnto iban a invertir en los prĂłximos años en Inteligencia Artificial para EEUU y para la educaciĂłn en concreto. Satya Nadella (Microsoft) abriĂł con 80.000 millones anuales. Pichai subiĂł la apuesta a 250.000 millones desde Google. Sam Altman (OpenAI) recordĂł su Stargate de 500.000 millones con Oracle y Softbank. Tim Cook (Apple) llegĂł a los 600.000 millones... Y Zuckerberg (Meta), que pareciĂł que no habĂa hecho los deberes, tambiĂ©n dijo 600.000 millones pero luego le confesĂł, sin saber que el micrĂłfono seguĂa abierto, que: âno sabĂa quĂ© cifra querĂa que dijeraâ.

Google, Meta, Microsoft, OpenAI, Oracle, AMD, Figma, Palantir, Micron Technology⊠Ni con el 0.5x dela cĂĄmara del mĂłvil habrĂan podido meter a todos los CEOs en la misma foto.
Por cierto, me gustarĂa ver la conversaciĂłn del grupo de Whatsapp para poner una fecha que les fuera bien a (casi) todos los CEOs de las grandes tecnolĂłgicas de EEUU. Y es âcasiâ todos porque hubo dos sonadas ausencias: Jensen Huang, CEO de NVIDIA, y Elon Musk, CEO de Tesla, SpaceX y cofundador de Neuralink y (sĂ, tambiĂ©n) OpenAI. De Jen-Hsun Huang dicen que no es Ă©l muy del reuniones grande, y que prefiere charlar uno a uno con Trump. Y Elon Musk dijo que sĂ que estaba invitado, pero que no podrĂa ir, tampoco se preocupĂł mucho de poner excusa, en realidad.
OpenAI publicĂł el 5 de Septiembre un artĂculo donde explica por quĂ© los modelos alucinan, (y propone cĂłmo solucionarlo). Sus autores concluyen que las alucinaciones de los modelos no son un fallo misterioso, sino la consecuencia lĂłgica de cĂłmo los entrenamos y evaluamos. Por alucinaciĂłn entienden esas respuestas falsas pero convincentes. Un ejemplo: preguntar la fecha de nacimiento de Adam Kalai (autor del paper). Distintos chatbots devolvieron tres fechas distintas, todas incorrectas.
El estudio explica que el problema empieza en el pre-entrenamiento. Los modelos aprenden a predecir la siguiente palabra, no a distinguir verdad de mentira. Y continĂșa en el post-entrenamiento: la mayorĂa de benchmarks castigan mĂĄs un âno lo sĂ©â que un error seguro. Es como el tĂpico examen tipo test donde no penaliza fallar, y como el cero ya lo tienes, te la juegas a ver si suena la flauta. Solo que en lugar de haber una respuesta objetivamente cierta o errĂłnea, a veces es interpretable, y puede convencer al evaluador si la formula una respuesta con la suficiente confianza. Resultado: el modelo no solo prefiere hablar antes que callar o decir âno lo sĂ©â, sino que lo dice son fingida seguridad, porque el entrenamiento le ha demostrado que asĂ mejora su probabilidad de Ă©xito (de colarte el triple).
Ante esto, no basta con entrenar los modelos con mĂĄs millones de parĂĄmetros, mĂĄs tiempo y mĂĄs conocimiento. Es imposible que el modelo aprenda todo, por muy intensivo que sea el entrenamiento, porque aunque tenga un 0% de fallos en ortografĂa o distinga un perro de un gato el 100% de las veces, si le pides el cumpleaños de un perro, no sabrĂĄ la verdad objetiva. Para evitar que mienta, la propuesta de OpenAI es sencilla pero ambiciosa: cambiar la manera de evaluar. Penalizar las respuestas falsas mĂĄs que la abstenciĂłn, y dar crĂ©dito parcial a la incertidumbre. Y parece que algo han hecho en el entrenamiento de sus propios modelos, porque se puede ver una tendencia esperanzadora en la reducciĂłn de alucinaciones en GPT-5 con respecto a modelos de generaciĂłn anterior:
En conclusiĂłn: para reducir alucinaciones, no basta con modelos mĂĄs grandes. Hace falta cambiar los benchmark y la manera en que se evalĂșan los modelos. Eso sĂ, todo esto sĂłlo aplica al modo de generaciĂłn de texto. Las alucinaciones en imagen o video tienen otras causas, otros problemas y otros soluciones.
Os dejo aquĂ el enlace de arXiv a la publicaciĂłn, por si quieres leerlo (o pedirle a ChatGPT que te lo resuma⊠serĂa irĂłnico que alucinase en su resumen, Âżno?). Que en realidad no es un artĂculo cientĂfico, publicado en una revista con revisiĂłn por pares, sino en un preprint en arXiv. Los tiempos de la investigaciĂłn en IA son tan rĂĄpidos que es muy habitual que trabajos como este salgan en arXiv antes, pero habrĂĄ que esperar al rigor cientĂfico de una revisiĂłn por expertos para dar por bueno su planteamiento.
Anthropic acaba de endurecer sus restricciones de acceso a Claude, ampliando el veto que ya tenĂa vigente a paĂses como China, Cuba, Venezuela, IrĂĄn, Rusia y Corea del Norte para incluir ahora a cualquier empresa controlada, directa o indirectamente por entidades chinas en al menos un 50%, aunque estĂ©n basadas fuera de China. Es decir, que una startup en, por ejemplo, Singapur tiene como dueño mayoritario a una empresa china, que antes tenĂa acceso a la API de Claude, desde la semana pasada ya no tendrĂĄ; se acabĂł Claude para ellos.
La medida de Anthropic, que dice que es "la primera en la industria", segĂșn anuncian no es solo simbĂłlica. SegĂșn un ejecutivo de la compañĂa, el impacto en sus ingresos globales serĂĄ de "varios cientos de millones de dĂłlares". Reconocen que perderĂĄn negocio frente a competidores, pero consideran que era necesario para destacar que este es un "problema significativo".
Anthropic ha decidido que prefiere perder dinero antes que facilitar involuntariamente el desarrollo de IA en regĂmenes que considera adversarios. Y esta palabra, âadversarioâ, no es casual, ya que la menciona hasta cuatro veces en su comunicado del pasado 4 de Septiembre. En el comunicado, insisten en que âabogan por fuertes polĂticas restrictivas a naciones autoritarias que puedan usar sus modelos o destilarlos, para crear tecnologĂa avanzada con fines militares o que atenten contra la seguridad nacional de EEUU o sus aliadosâ. Un tono muy directo y una postura arriesgada en un mercado tan competitivo, pero que marca un precedente interesante para el resto de la industria.
La pregunta es: ÂżseguirĂĄn OpenAI, Google y Meta el mismo camino, o aprovecharĂĄn para ganar cuota de mercado? Viendo la cena que hubo la semana pasada, no me extrañarĂa que hubiera acciones similares de otros, en caso de que guerra frĂa digital se intensifique.
Por cierto, hablando de seguridad y las maldades que se pueden hacer con Claude, el pasado mes la misma Anthropic publicĂł su informe sobre amenazas a la seguridad que se han producido con su modelo. 25 pĂĄginas de ejemplos reales donde criminales ya han usado Claude para ejercer el mal. Os dejo el enlace aquĂ, por si querĂ©is coger ideas (sobre lo que no hay que hacer, claro).
đš Nueva secciĂłn en HistorIAs de la IA đš
Hoy HistorIAs de la IA estrena categorĂa. Tras las EfemĂ©rides de la anterior entrega, hoy se inaugura âQuiĂ©n es quiĂ©nâ. Un huequito de la newsletter donde irĂ© hablando de personas importantes del pasado, el presente o el futuro del mundo de la IA, para que no te pierdas entre tantos nombres, o que los puedas dejar caer en conversaciones con amigos y que asĂ demuestres que tĂș sĂ estĂĄs al dĂa (porque sigues la Newsletter). Pero ojo đ , que âEfemĂ©ridesâ y âQuiĂ©n es quiĂ©nâ son solo dos de las cuatro categorĂas que formarĂĄn esta secciĂłn. ÂĄSeguid atentos que aĂșn quedan dos tipos mĂĄs!
HistorIAs de la IA. Hoy: đ€ Perfiles đ€
A sus 28 años, Alexandr Wang ya es CEO de una empresa valorada en 7.300 millones de dólares, el multimillonario mås joven de Estados Unidos, y ahora, el flamante Chief AI Scientist de Meta para liderar su "Laboratorio de Superinteligencia". No estå nada mal para alguien que empezó etiquetando imågenes para entrenar algoritmos.
En 2016, con 19 años, Wang fundĂł Scale AI junto junto Lucy Guo con una idea aparentemente simple: las IAs necesitan datos de calidad para aprender, y alguien tiene que etiquetar esos datos manualmente. Mientras otros trabajaban en algoritmos revolucionarios, Ă©l se centrĂł en el trabajo sucio pero esencial de etiquetado de datos, cerrando acuerdos millonarios con grandes clientes como Google, Oracle, OpenAI o el gobierno de EEUU. Aquen en realidad, el trabajo sucio de etiquetar manualmente todos estos datos no lo hizo Ă©l sino los 200.000+ trabajadores de paĂses como Kenia, PakistĂĄn, Venezuela o Filipinas que son contratados en remoto por Remotasks, la empresa filial de Scale AI, en condiciones rodeadas de polĂ©mica.
El pasado junio Meta adquiriĂł el 49% de Scale AI por 14.900 millones de dĂłlares, e incorporĂł a Alexandr Wang como Chief AI Scientist. Este fichaje no fue casual: combina la experiencia prĂĄctica de entrenar IAs masivas con la visiĂłn estratĂ©gica que necesita Zuckerberg para competir con OpenAI y Google. Y prueba de su visiĂłn innovadora es la jugada que anunciĂł recientemente en su cuenta de X, la alianza con Midjourney que anunciamos la pasada semana. muestra su estilo: no solo busca modelos potentes, sino "estĂ©tica". Wang entiende que en la era post-GPT, la diferenciaciĂłn no estĂĄ solo en la capacidad tĂ©cnica, sino en cĂłmo se percibe y se siente la tecnologĂa.

Alexandr Wang, en Febrero de 2025 en el Paris AI Summit. (Gonzalo Fuentes / Reuters)
đ La Herramienta de la semana:
La semana pasada ya hablamos de LM Arena, la plataforma donde Nano Banana se dio a conocer al pĂșblico y destrozĂł a sus rivales. Hoy te explico cĂłmo funciona, y por quĂ© es una herramienta que merece la pena consultar de vez en cuando.
Como dijimos, LM Arena es una web donde se clasifican todos los modelos de IA en base a una puntuaciĂłn. Hay distintos rankings (texto, video, programaciĂłn, bĂșsqueda, multimodalâŠ) pero todos ellos se construyen igual: usuando el sistema ELO de ajedrez. Cada modelo empieza con 1000 puntos, y cada victoria o derrota ajusta las puntuaciones matemĂĄticamente segĂșn la "dificultad" del oponente. Un modelo desconocido puede trepar al top del ranking si consistentemente gana batallas, sin que nadie sepa de quĂ© empresa viene. Pero ÂżcĂłmo funcionan esas batallas?
La mecĂĄnica es sencilla: Entras en LM Arena, lanzas un prompt, el que quieras. dos modelos de IA responden de forma completamente anĂłnima, tĂș votas por la respuesta que mĂĄs te convence, y solo despuĂ©s descubres si elegiste GPT-4, Claude, Gemini, o algĂșn modelo experimental que nadie conoce. Con tu voto, y el de otros miles de usuarios de todo el mundo generan estos rankings de forma orgĂĄnica. No hay benchmarks corporativos, ni papers acadĂ©micos, ni marketing. Solo resultados reales de personas reales usando las IAs para tareas reales. Aunque hay un problema. Lo usuarios suelen tener un sesgo claro hacia respuestas largas y elaboradas, aunque no siempre sean mĂĄs precisas o haya pequeñas alucinaciones no detectadas. Un modelo que escriba pĂĄrrafos floridos puede rankear mejor que otro mĂĄs directo pero correcto. HabrĂĄ que ver si con el reciente paper de OpenAI cambia este paradigma.

Ejemplo de cĂłmo funciona. El modelo A lo explica bien, al modelo B le ha faltado tiempo de ponerse a contar nosequĂ© de C++, con cĂłdigo y todo, que no cabĂa en la captura de pantalla. ÂżTu a quiĂ©n votarĂas? Yo votĂ© al A, y tras ello me aparecieron los nombres de los modelos: A = Claude Sonnet 4, B = o3 mini.
ÂżPor quĂ© es Ăștil?: LM Arena se ha convertido en el tribunal popular de la IA. Es donde las empresas realmente descubren si su modelo es bueno, o si solo tiene buen marketing. Pero su utilidad va mĂĄs allĂĄ de ver cuĂĄl es el mejor modelo actual para cada tarea (que ya es bastante). AdemĂĄs puedes entrar y elegir la batalla que tĂș quieras con dos modelos que tĂș elijas o testear simplemente un modelo, sin batalla. Con eso puedo probar modelos de Ășltima generaciĂłn que de otra manera no tendrĂas acceso sin pagar el premium, como gpt-5 high, o Imagen 4. Mirad cĂłmo con la excusa de "evaluar Nano Banana vs GPT Image 1â me he generado otra imagen para la newsletter, gratis đ .

En el ranking, actualizado a 25-Ago-2025, nano-banana (izq.) va primera con 1147 puntos. gpt-image-1 (dcha.) va tercera con 1129 puntos. Con esa nariz que le pone al de la derecha, yo darĂa como ganador a nano-bananaâŠ
Y hasta aquĂ la entrega #02 de la Newsletter.
ÂżQuĂ© te ha parecido el email de hoy? Si quieres poner un comentario, podrĂĄs ponerlo despues de puntual el post đ .
đ§ đ§ đ§ đ§ đ§ ÂĄAlimento para la mente!
đ§ đ§ đ§ Tienes que pensarlo mejor
đ§ Han faltado neuronas
>>> ÂĄNos vemos en la siguiente entrega!



