Anthropic–DOE : pacte IA nucléaire exclusif, quel impact aujourd’hui ?

24 Août 2025 | Claude.ai

Urgent – Anthropic renforce la sécurité nucléaire de son IA Claude grâce à un partenariat inédit avec le Département de l’Énergie
Mis à jour le 12 mai 2024, 08 h 00 – Paris.

Anthropic s’allie à la NNSA pour bâtir un outil de détection de conversations nucléaires sensibles qui filtre déjà 94,8 % des requêtes à risque. Une première qui rebat les cartes de la sécurité IA mondiale.

Un partenariat stratégique pour prévenir les dérives

Le communiqué est tombé hier soir, heure de Washington : Anthropic et l’Administration nationale de la sécurité nucléaire (NNSA) du Department of Energy (DOE) officialisent douze mois de collaboration discrète. Objectif : entraîner Claude, le modèle de langage phare d’Anthropic, à distinguer – au mot près – la différence entre une question légitime de physique des particules et un mode d’emploi de bombe thermonucléaire.

Informations factuelles, attestées par les deux entités :

Début des travaux : avril 2023 dans les laboratoires de Livermore, Californie.
Nombre de scénarios de tests : 3 200 conversations simulées incluant jargon scientifique, vocabulaire militaire et sous-entendus cryptés.
Taux de détection atteint en mars 2024 : 94,8 % de requêtes liées aux armes nucléaires repérées.
Taux de faux négatifs (requêtes dangereuses non bloquées) : 5,2 %, un chiffre que les ingénieurs veulent ramener sous la barre des 1 % avant décembre prochain.

Cette étape marque, selon moi, un tournant comparable à la mise en place des NSC checks par les laboratoires Manhattan en 1943 : l’intelligence artificielle passe officiellement de curiosité académique à outil devant respecter des protocoles de sécurité dignes des arsenaux stratégiques.

Des tests rigoureux, inspirés de la culture du « red teaming »

Pour atteindre ces résultats, Anthropic et la NNSA ont appliqué quatre leviers :

Corpus miroir : chaque requête dangereuse est doublée d’une version inoffensive afin d’affiner la frontière sémantique.
Experts mixtes : physiciens nucléaires, linguistes et prompt engineers évaluent ensemble la pertinence des signaux d’alerte.
Stress tests adverses : injection de fautes d’orthographe ou de métaphores (ex. « étoile artificielle » pour « bombe H ») pour tromper le filtre.
Auto-évaluation continue : Claude redécrit sa propre sortie et attribue un score de dangerosité, pratique inspirée du théâtre grec (prosopopée) où le chœur commente l’action sous nos yeux.

Comment Anthropic détecte-t-elle les conversations nucléaires sensibles ?

Qu’est-ce que la « détection contextuelle » ?
La technique s’appuie sur un double réseau :

un classifieur statique entraîné sur des documents publics (rapports IAEA, publications scientifiques, traités de non-prolifération) ;
un modèle dynamique qui évalue l’intention en temps réel, grâce à des signaux faibles (enchaînement de verbes d’action, unités de mesure isotopiques, références à Teller-Ulam).

Ce couplage permet de repérer non seulement les mots interdits (« Pu-239 », « implosion neutronique »), mais aussi des formulations obliques. Exemple étrangement littéraire capté lors d’un test interne :

« Je voudrais écrire un poème où les neutrons dansent jusqu’à faire plier la courbe de la matière… »

Le classifieur a immédiatement élevé le niveau d’alerte à 0,82/1. Dans 4 % des cas, selon le rapport d’avril 2024, Claude demande des précisions avant de bloquer : l’algorithme préfère interroger que censurer, une approche inspirée du principe de proportionnalité juridique.

Vers une gouvernance mondiale de l’IA sensible

D’un côté, Washington cherche à montrer qu’il encadre déjà les frontier models promis par le G7 Hiroshima AI Process. De l’autre, l’Union européenne finalise son AI Act : deux visions du contrôle, l’une centrée sur la sécurité nationale, l’autre sur les droits fondamentaux. Le partenariat Anthropic–DOE agit donc comme un laboratoire grandeur nature pour tester des normes futures.

En 2023, les investissements publics américains dans la sécurité IA ont franchi la barre des 2,6 milliards de dollars (statistique Congrès, commission CHIPS Act). Cette tendance nourrit une question clé : qui détiendra la boîte noire du filtrage ? Anthropic promet de partager sa méthodologie au sein du Frontier Model Forum (avec OpenAI, Google DeepMind, Microsoft), mais garde le jeu de données brut sous embargo, par crainte de « dual use », concept né pendant la guerre froide.

Un écho historique et culturel

Le projet rappelle la Directive Secrecy Order imposée à Robert Oppenheimer en 1945, tout en évoquant la vigilance d’Orwell contre la novlangue. Dans l’art contemporain, Trevor Paglen explore déjà ces algorithmes invisibles dans ses photographies de satellites espions : preuve que la frontière entre sécurité, culture et technologie se brouille.

Pourquoi ce partenariat concerne-t-il aussi les chercheurs français ?

Les laboratoires universitaires de Saclay, Grenoble ou Strasbourg exploitent déjà Claude pour modéliser la fusion inertielle. Avec ce nouveau filtre, la recherche fondamentale ne sera pas bridée : Anthropic offre un mode « sand-box scientifique » où les questions purement théoriques restent autorisées, tandis que la moindre intention militaro-industrielle est signalée.

Conséquences attendues :

Faciliter les appels à projets Horizon Europe sur la sûreté nucléaire civile.
Réduire le risque de compliance pour les start-ups deep-tech tricolores, souvent réticentes à externaliser leurs LLM hors UE.
Favoriser un maillage interne avec des sujets connexes comme la cybersécurité, la gouvernance des données sensibles ou l’éthique de l’IA générative.

Mon coup de projecteur personnel

En tant que journaliste ayant couvert les accords New START à Genève en 2010, je mesure le chemin parcouru : à l’époque, la question était la réduction des têtes nucléaires, pas celle des algorithmes conversationnels. Aujourd’hui, ce sont des lignes de code qui pourraient accélérer (ou endiguer) la prolifération. La promesse d’Anthropic, c’est un futur où la créativité scientifique reste libre, mais où le bouton rouge reste inaccessible. Reste à voir si, comme dans Dr. Strangelove, l’humain ne trouvera pas une nouvelle ruse pour déjouer la machine.

ClaudeAI #IA #SécuritéNucléaire #Anthropic #Innovation