Bienvenido al Prompt, la newsletter sobre Inteligencia Artificial escrita con un poco de Inteligencia Natural

ÂĄHola suscriptores! 11 de Septiembre (segunda newsletter del mes) y, de nuevo, no han faltado noticias de las que hablar. Vamos con ellas, y despuĂ©s
 ÂĄnueva secciĂłn đŸ„ł !

En la newsletter de hoy
:

>>> Tres noticias destacadas

💾 Trump reĂșne en una cena a (casi) todos los CEOS de las grandes tech AI de EEUU
đŸ˜”â€đŸ’« OpenAI publica un artĂ­culo sobre por quĂ© los modelos alucinan
🇹🇳 Anthropic cierra la puerta a China: “nación adversaria”.

>>> HistorIAs de la IA
đŸ‘€ QuiĂ©n es quiĂ©n: Alexandr Wang, un Supercerebro para crear la Superinteligencia

>>> Una herramienta
🛠 LM Arena. Donde los chatbots luchan anónimos por el título

¿Qué ha pasado esta semana en el mundo de la IA?

Donald Trump organizĂł el pasado viernes 5 de Septiembre una cena a la que fueron invitados todos los lĂ­deres de las grandes tech involucradas en IA. Aunque mĂĄs que cena, aquello parecĂ­a un concurso de “QuiĂ©n da mĂĄs por la IA americana”. Oficialmente, segĂșn el comunicado de la Casa Blanca, se trataba de “alinear al sector tecnolĂłgico con la estrategia gubernamental para consolidad el dominio estadounidense en IA”. Y tambiĂ©n, dicen “se tratĂł de una colaboraciĂłn pĂșblico-privada para acelerar la innovaciĂłn y expansiĂłn de infraestructura tecnolĂłgica, en el marco del plan estratĂ©gico nacional denominado AI Action Plan”. Ese mismo dĂ­a “La Primera Dama impulsĂł complementariamente una agenda educativa basada en IA para preparar a las futuras generaciones”.

Dicho de otro modo, menos propagandĂ­stico: pasĂł lista y reuniĂł a todos los CEOs de las grandes tecnolĂłgicas en una cena donde, uno por uno, fueron 1) agradeciendo ser invitados, 2) elogiando el papel de Trump en la economĂ­a y el apoyo al mercado y la tecnologĂ­a y 3) diciendo cuĂĄnto iban a invertir en los prĂłximos años en Inteligencia Artificial para EEUU y para la educaciĂłn en concreto. Satya Nadella (Microsoft) abriĂł con 80.000 millones anuales. Pichai subiĂł la apuesta a 250.000 millones desde Google. Sam Altman (OpenAI) recordĂł su Stargate de 500.000 millones con Oracle y Softbank. Tim Cook (Apple) llegĂł a los 600.000 millones... Y Zuckerberg (Meta), que pareciĂł que no habĂ­a hecho los deberes, tambiĂ©n dijo 600.000 millones pero luego le confesĂł, sin saber que el micrĂłfono seguĂ­a abierto, que: “no sabĂ­a quĂ© cifra querĂ­a que dijera”.

Google, Meta, Microsoft, OpenAI, Oracle, AMD, Figma, Palantir, Micron Technology
 Ni con el 0.5x dela cámara del móvil habrían podido meter a todos los CEOs en la misma foto.

Por cierto, me gustarĂ­a ver la conversaciĂłn del grupo de Whatsapp para poner una fecha que les fuera bien a (casi) todos los CEOs de las grandes tecnolĂłgicas de EEUU. Y es “casi” todos porque hubo dos sonadas ausencias: Jensen Huang, CEO de NVIDIA, y Elon Musk, CEO de Tesla, SpaceX y cofundador de Neuralink y (sĂ­, tambiĂ©n) OpenAI. De Jen-Hsun Huang dicen que no es Ă©l muy del reuniones grande, y que prefiere charlar uno a uno con Trump. Y Elon Musk dijo que sĂ­ que estaba invitado, pero que no podrĂ­a ir, tampoco se preocupĂł mucho de poner excusa, en realidad.

OpenAI publicó el 5 de Septiembre un artículo donde explica por qué los modelos alucinan, (y propone cómo solucionarlo). Sus autores concluyen que las alucinaciones de los modelos no son un fallo misterioso, sino la consecuencia lógica de cómo los entrenamos y evaluamos. Por alucinación entienden esas respuestas falsas pero convincentes. Un ejemplo: preguntar la fecha de nacimiento de Adam Kalai (autor del paper). Distintos chatbots devolvieron tres fechas distintas, todas incorrectas.

El estudio explica que el problema empieza en el pre-entrenamiento. Los modelos aprenden a predecir la siguiente palabra, no a distinguir verdad de mentira. Y continĂșa en el post-entrenamiento: la mayorĂ­a de benchmarks castigan mĂĄs un “no lo sĂ©â€ que un error seguro. Es como el tĂ­pico examen tipo test donde no penaliza fallar, y como el cero ya lo tienes, te la juegas a ver si suena la flauta. Solo que en lugar de haber una respuesta objetivamente cierta o errĂłnea, a veces es interpretable, y puede convencer al evaluador si la formula una respuesta con la suficiente confianza. Resultado: el modelo no solo prefiere hablar antes que callar o decir “no lo sĂ©â€, sino que lo dice son fingida seguridad, porque el entrenamiento le ha demostrado que asĂ­ mejora su probabilidad de Ă©xito (de colarte el triple).

Ante esto, no basta con entrenar los modelos con mås millones de paråmetros, mås tiempo y mås conocimiento. Es imposible que el modelo aprenda todo, por muy intensivo que sea el entrenamiento, porque aunque tenga un 0% de fallos en ortografía o distinga un perro de un gato el 100% de las veces, si le pides el cumpleaños de un perro, no sabrå la verdad objetiva. Para evitar que mienta, la propuesta de OpenAI es sencilla pero ambiciosa: cambiar la manera de evaluar. Penalizar las respuestas falsas mås que la abstención, y dar crédito parcial a la incertidumbre. Y parece que algo han hecho en el entrenamiento de sus propios modelos, porque se puede ver una tendencia esperanzadora en la reducción de alucinaciones en GPT-5 con respecto a modelos de generación anterior:

En conclusiĂłn: para reducir alucinaciones, no basta con modelos mĂĄs grandes. Hace falta cambiar los benchmark y la manera en que se evalĂșan los modelos. Eso sĂ­, todo esto sĂłlo aplica al modo de generaciĂłn de texto. Las alucinaciones en imagen o video tienen otras causas, otros problemas y otros soluciones.

Os dejo aquí el enlace de arXiv a la publicación, por si quieres leerlo (o pedirle a ChatGPT que te lo resuma
 sería irónico que alucinase en su resumen, ¿no?). Que en realidad no es un artículo científico, publicado en una revista con revisión por pares, sino en un preprint en arXiv. Los tiempos de la investigación en IA son tan rápidos que es muy habitual que trabajos como este salgan en arXiv antes, pero habrá que esperar al rigor científico de una revisión por expertos para dar por bueno su planteamiento.

Anthropic acaba de endurecer sus restricciones de acceso a Claude, ampliando el veto que ya tenía vigente a países como China, Cuba, Venezuela, Irån, Rusia y Corea del Norte para incluir ahora a cualquier empresa controlada, directa o indirectamente por entidades chinas en al menos un 50%, aunque estén basadas fuera de China. Es decir, que una startup en, por ejemplo, Singapur tiene como dueño mayoritario a una empresa china, que antes tenía acceso a la API de Claude, desde la semana pasada ya no tendrå; se acabó Claude para ellos.

La medida de Anthropic, que dice que es "la primera en la industria", segĂșn anuncian no es solo simbĂłlica. SegĂșn un ejecutivo de la compañía, el impacto en sus ingresos globales serĂĄ de "varios cientos de millones de dĂłlares". Reconocen que perderĂĄn negocio frente a competidores, pero consideran que era necesario para destacar que este es un "problema significativo".

Anthropic ha decidido que prefiere perder dinero antes que facilitar involuntariamente el desarrollo de IA en regímenes que considera adversarios. Y esta palabra, “adversario”, no es casual, ya que la menciona hasta cuatro veces en su comunicado del pasado 4 de Septiembre. En el comunicado, insisten en que “abogan por fuertes políticas restrictivas a naciones autoritarias que puedan usar sus modelos o destilarlos, para crear tecnología avanzada con fines militares o que atenten contra la seguridad nacional de EEUU o sus aliados”. Un tono muy directo y una postura arriesgada en un mercado tan competitivo, pero que marca un precedente interesante para el resto de la industria.

La pregunta es: ¿seguirån OpenAI, Google y Meta el mismo camino, o aprovecharån para ganar cuota de mercado? Viendo la cena que hubo la semana pasada, no me extrañaría que hubiera acciones similares de otros, en caso de que guerra fría digital se intensifique.

Por cierto, hablando de seguridad y las maldades que se pueden hacer con Claude, el pasado mes la misma Anthropic publicó su informe sobre amenazas a la seguridad que se han producido con su modelo. 25 påginas de ejemplos reales donde criminales ya han usado Claude para ejercer el mal. Os dejo el enlace aquí, por si queréis coger ideas (sobre lo que no hay que hacer, claro).

🚹 Nueva sección en HistorIAs de la IA 🚹

Hoy HistorIAs de la IA estrena categorĂ­a. Tras las EfemĂ©rides de la anterior entrega, hoy se inaugura “QuiĂ©n es quiĂ©n”. Un huequito de la newsletter donde irĂ© hablando de personas importantes del pasado, el presente o el futuro del mundo de la IA, para que no te pierdas entre tantos nombres, o que los puedas dejar caer en conversaciones con amigos y que asĂ­ demuestres que tĂș sĂ­ estĂĄs al dĂ­a (porque sigues la Newsletter). Pero ojo 👀 , que “EfemĂ©rides” y “QuiĂ©n es quiĂ©n” son solo dos de las cuatro categorĂ­as que formarĂĄn esta secciĂłn. ÂĄSeguid atentos que aĂșn quedan dos tipos mĂĄs!

HistorIAs de la IA. Hoy: đŸ‘€ Perfiles đŸ‘€

A sus 28 años, Alexandr Wang ya es CEO de una empresa valorada en 7.300 millones de dólares, el multimillonario mås joven de Estados Unidos, y ahora, el flamante Chief AI Scientist de Meta para liderar su "Laboratorio de Superinteligencia". No estå nada mal para alguien que empezó etiquetando imågenes para entrenar algoritmos.

En 2016, con 19 años, Wang fundó Scale AI junto junto Lucy Guo con una idea aparentemente simple: las IAs necesitan datos de calidad para aprender, y alguien tiene que etiquetar esos datos manualmente. Mientras otros trabajaban en algoritmos revolucionarios, él se centró en el trabajo sucio pero esencial de etiquetado de datos, cerrando acuerdos millonarios con grandes clientes como Google, Oracle, OpenAI o el gobierno de EEUU. Aquen en realidad, el trabajo sucio de etiquetar manualmente todos estos datos no lo hizo él sino los 200.000+ trabajadores de países como Kenia, Pakistån, Venezuela o Filipinas que son contratados en remoto por Remotasks, la empresa filial de Scale AI, en condiciones rodeadas de polémica.

El pasado junio Meta adquirió el 49% de Scale AI por 14.900 millones de dólares, e incorporó a Alexandr Wang como Chief AI Scientist. Este fichaje no fue casual: combina la experiencia pråctica de entrenar IAs masivas con la visión estratégica que necesita Zuckerberg para competir con OpenAI y Google. Y prueba de su visión innovadora es la jugada que anunció recientemente en su cuenta de X, la alianza con Midjourney que anunciamos la pasada semana. muestra su estilo: no solo busca modelos potentes, sino "estética". Wang entiende que en la era post-GPT, la diferenciación no estå solo en la capacidad técnica, sino en cómo se percibe y se siente la tecnología.

Alexandr Wang, en Febrero de 2025 en el Paris AI Summit. (Gonzalo Fuentes / Reuters)

🛠 La Herramienta de la semana:

La semana pasada ya hablamos de LM Arena, la plataforma donde Nano Banana se dio a conocer al pĂșblico y destrozĂł a sus rivales. Hoy te explico cĂłmo funciona, y por quĂ© es una herramienta que merece la pena consultar de vez en cuando.

Como dijimos, LM Arena es una web donde se clasifican todos los modelos de IA en base a una puntuaciĂłn. Hay distintos rankings (texto, video, programaciĂłn, bĂșsqueda, multimodal
) pero todos ellos se construyen igual: usuando el sistema ELO de ajedrez. Cada modelo empieza con 1000 puntos, y cada victoria o derrota ajusta las puntuaciones matemĂĄticamente segĂșn la "dificultad" del oponente. Un modelo desconocido puede trepar al top del ranking si consistentemente gana batallas, sin que nadie sepa de quĂ© empresa viene. Pero ÂżcĂłmo funcionan esas batallas?

La mecĂĄnica es sencilla: Entras en LM Arena, lanzas un prompt, el que quieras. dos modelos de IA responden de forma completamente anĂłnima, tĂș votas por la respuesta que mĂĄs te convence, y solo despuĂ©s descubres si elegiste GPT-4, Claude, Gemini, o algĂșn modelo experimental que nadie conoce. Con tu voto, y el de otros miles de usuarios de todo el mundo generan estos rankings de forma orgĂĄnica. No hay benchmarks corporativos, ni papers acadĂ©micos, ni marketing. Solo resultados reales de personas reales usando las IAs para tareas reales. Aunque hay un problema. Lo usuarios suelen tener un sesgo claro hacia respuestas largas y elaboradas, aunque no siempre sean mĂĄs precisas o haya pequeñas alucinaciones no detectadas. Un modelo que escriba pĂĄrrafos floridos puede rankear mejor que otro mĂĄs directo pero correcto. HabrĂĄ que ver si con el reciente paper de OpenAI cambia este paradigma.

Ejemplo de cómo funciona. El modelo A lo explica bien, al modelo B le ha faltado tiempo de ponerse a contar nosequé de C++, con código y todo, que no cabía en la captura de pantalla. ¿Tu a quién votarías? Yo voté al A, y tras ello me aparecieron los nombres de los modelos: A = Claude Sonnet 4, B = o3 mini.

ÂżPor quĂ© es Ăștil?: LM Arena se ha convertido en el tribunal popular de la IA. Es donde las empresas realmente descubren si su modelo es bueno, o si solo tiene buen marketing. Pero su utilidad va mĂĄs allĂĄ de ver cuĂĄl es el mejor modelo actual para cada tarea (que ya es bastante). AdemĂĄs puedes entrar y elegir la batalla que tĂș quieras con dos modelos que tĂș elijas o testear simplemente un modelo, sin batalla. Con eso puedo probar modelos de Ășltima generaciĂłn que de otra manera no tendrĂ­as acceso sin pagar el premium, como gpt-5 high, o Imagen 4. Mirad cĂłmo con la excusa de "evaluar Nano Banana vs GPT Image 1” me he generado otra imagen para la newsletter, gratis 😏 .

En el ranking, actualizado a 25-Ago-2025, nano-banana (izq.) va primera con 1147 puntos. gpt-image-1 (dcha.) va tercera con 1129 puntos. Con esa nariz que le pone al de la derecha, yo daría como ganador a nano-banana


Y hasta aquĂ­ la entrega #02 de la Newsletter.

ÂżQuĂ© te ha parecido el email de hoy? Si quieres poner un comentario, podrĂĄs ponerlo despues de puntual el post 😀 .

🧠 🧠 🧠 🧠 🧠 ¡Alimento para la mente!
🧠 🧠 🧠 Tienes que pensarlo mejor
🧠 Han faltado neuronas

❝

>>> ÂĄNos vemos en la siguiente entrega!

Carlos Velasco | >>> El Prompt

ÂżAlgo que decir?

Avatar

or to participate

Posts Recomendados