Entropie d'Espérance : Une Nouvelle Métrique pour l'Évaluation de la Robustesse des Mots de Passe

1. Introduction & Motivation

Cet article présente l'Entropie d'Espérance, une nouvelle métrique conçue pour estimer la robustesse des mots de passe aléatoires ou pseudo-aléatoires. La motivation découle d'un manque pratique dans les outils d'évaluation existants. Les formules classiques basées sur la combinatoire (par ex., $\log_2(\text{espace de caractères}^{\text{longueur}})$) produisent des résultats de l'ordre de dizaines de bits, tandis que la suite d'estimation d'entropie NIST, standard de l'industrie, fournit un score d'entropie min normalisé entre 0 et 1. Cette divergence rend la comparaison directe et l'interprétation intuitive difficile. L'Entropie d'Espérance comble ce fossé en fournissant une estimation de la robustesse sur la même échelle 0-1 que l'outil NIST, où une valeur de, par exemple, 0,4 indique qu'un attaquant doit parcourir exhaustivement au moins 40 % du nombre total de tentatives possibles pour trouver le mot de passe.

Ce travail s'inscrit dans le contexte du projet « PHY2APP », qui se concentre sur la génération de mots de passe symétriques robustes pour le provisionnement de périphériques Wi-Fi (protocole ComPass) en utilisant des méthodes de sécurité de la couche physique, soulignant le besoin d'une métrique de robustesse robuste et évolutive.

2. Différentes Définitions de l'Entropie

L'entropie mesure le désordre, l'aléa ou l'incertitude. Différentes définitions s'appliquent de manière variable à la robustesse des mots de passe.

2.1 Entropie Min

Définie comme $H_{\infty} = -\log_2(\max(p_i))$, où $p_i$ est la probabilité d'un élément. Elle représente le scénario du pire cas, mesurant la difficulté à deviner l'issue la plus probable. C'est la base du résultat de la suite NIST.

2.2 Entropie de Shannon

Définie comme $H_1 = -\sum_{i=1}^{N} p_i \log_2 p_i$. Elle fournit une mesure moyenne du contenu informationnel mais est critiquée pour son absence de lien avec la difficulté réelle de devinage dans le contexte du cassage de mots de passe, car elle ignore la longueur du mot de passe et la stratégie optimale de l'attaquant.

2.3 Entropie de Hartley

Définie comme $H_0 = \log_2 N$, elle ne mesure que la taille de la distribution (taille de l'alphabet), ignorant complètement les probabilités des caractères.

2.4 Entropie de Devinage

Définie comme $G = \sum_{i=1}^{N} p_i \cdot i$, où les tentatives sont ordonnées par probabilité décroissante. Elle mesure le nombre espéré de tentatives requises par un attaquant optimal. Elle est plus directement liée au temps de cassage pratique mais n'est pas normalisée.

3. Entropie d'Espérance

3.1 Définition & Formulation

L'Entropie d'Espérance s'appuie sur le concept de l'Entropie de Devinage mais est normalisée sur une échelle [0, 1]. L'idée centrale est d'estimer la robustesse à partir de la composition d'un seul mot de passe. Elle considère des ensembles de caractères disjoints : lettres minuscules $L$ (|L|=26), lettres majuscules $U$ (26), chiffres $D$ (10) et symboles $S$ (32), formant un espace de caractères total $K$ de taille 94 pour l'anglais.

Bien que la dérivation mathématique complète pour un mot de passe unique soit sous-entendue mais pas entièrement explicite dans l'extrait fourni, la métrique normalise essentiellement l'effort requis par un attaquant optimal par rapport à l'espace de recherche total. Si $G$ est l'Entropie de Devinage et $N$ le nombre total de mots de passe possibles (par ex., $94^{\text{longueur}}$ pour l'espace complet), une forme normalisée pourrait être conceptuellement liée à $E \approx G / N_{eff}$, où $N_{eff}$ est une taille d'espace de recherche effective tenant compte de la composition du mot de passe.

3.2 Interprétation & Échelle

L'innovation clé réside dans son échelle interprétable. Une valeur d'Entropie d'Espérance de $\alpha$ (où $0 \le \alpha \le 1$) signifie qu'un attaquant doit effectuer au moins une fraction $\alpha$ du nombre total de tentatives requises (dans un ordre optimal) pour casser le mot de passe. Une valeur de 1 indique une aléa idéal où l'attaquant doit effectuer une recherche par force brute complète. Cela s'aligne intuitivement avec l'échelle d'entropie min du NIST, facilitant la comparaison et la prise de décision pour les concepteurs de systèmes.

4. Idée Maîtresse & Perspective de l'Analyste

Idée Maîtresse : Reaz et Wunder ne proposent pas simplement une autre métrique d'entropie ; ils tentent de résoudre un fossé critique d'utilisabilité et d'interprétabilité en ingénierie de la sécurité. Le vrai problème n'est pas un manque de mesures de complexité, mais la friction cognitive lorsqu'un outil combinatoire crie « 80 bits ! » et que le NIST murmure « 0,7 ». L'Entropie d'Espérance est un traducteur pragmatique, convertissant la robustesse cryptographique en un score de risque probabiliste et actionnable sur un tableau de bord unifié.

Enchaînement Logique : L'argument est élégamment simple : 1) Les métriques existantes vivent sur des planètes différentes (bits vs. scores normalisés), causant la confusion. 2) L'Entropie de Devinage ($G$) est plus proche de la réalité d'un attaquant mais n'est pas bornée. 3) Par conséquent, normaliser $G$ par rapport à l'espace de recherche effectif pour créer un score 0-1 qui correspond directement au pourcentage d'effort requis par l'attaquant. Cela fait le pont entre le théorique (l'entropie min du NIST) et le pratique (la charge de travail du craqueur de mots de passe).

Points Forts & Faiblesses : Sa force réside dans son élégante simplicité et son interprétabilité immédiate — une aubaine pour les décideurs et les architectes système. Cependant, le diable se cache dans les hypothèses de distribution. La précision de la métrique dépend fortement d'une modélisation correcte de la distribution de probabilité $p_i$ des caractères à partir d'un seul échantillon de mot de passe, ce qui est un problème statistique notoirement difficile. Contrairement à la suite NIST qui teste de longs flux de bits, l'appliquer à un mot de passe court de 16 caractères nécessite des estimateurs robustes qui peuvent être sensibles aux biais. L'article, d'après l'extrait, ne détaille pas entièrement ce processus d'estimation pour une instance unique, ce qui est son talon d'Achille.

Perspectives Actionnables : Pour les équipes de sécurité, cette métrique pourrait être intégrée dans des API de création de mots de passe ou des plugins Active Directory pour fournir un retour de robustesse intuitif et en temps réel (« Votre mot de passe nécessite 60 % des tentatives pour être cassé »). Pour les chercheurs, l'étape suivante doit être une validation empirique rigoureuse et à grande échelle contre des outils de cassage réels (comme Hashcat ou John the Ripper) pour calibrer le modèle. Une Entropie d'Espérance de 0,8 signifie-t-elle vraiment 80 % de l'espace de recherche ? Cela nécessite une preuve contre des modèles d'IA adversariaux, similaire à l'utilisation des GANs pour attaquer d'autres domaines de sécurité. Le concept est prometteur, mais son utilité opérationnelle dépend d'une validation transparente et évaluée par les pairs au-delà de l'environnement contrôlé des mots de passe générés par machine.

5. Détails Techniques & Formulation Mathématique

Sur la base des concepts décrits, l'Entropie d'Espérance $H_E$ pour un mot de passe peut être conceptualisée. Soit un mot de passe de longueur $l$ tiré d'un alphabet $\mathcal{A}$ avec une distribution de probabilité associée pour chaque position de caractère (qui peut être estimée à partir du mot de passe lui-même ou d'un corpus de référence).

Vecteur de Probabilités Ordonné : Pour l'espace total des mots de passe de taille $N = |\mathcal{A}|^l$, on peut théoriquement ordonner tous les mots de passe possibles par leur probabilité décroissante d'être choisis (selon le modèle génératif).
Entropie de Devinage : Le nombre espéré de tentatives pour un attaquant optimal est $G = \sum_{i=1}^{N} p_i \cdot i$, où $p_i$ est la probabilité du $i$-ème mot de passe le plus probable.
Normalisation : Le $G$ maximum possible pour une distribution uniforme est $(N+1)/2$. Une mesure normalisée de l'effort pourrait être définie comme : $$ H_E \approx \frac{2 \cdot G - 1}{N} $$ Cela ferait correspondre une distribution uniforme (aléa parfait) à $H_E \to 1$ lorsque $N$ est grand, et un mot de passe très prévisible (où $G$ est petit) à une valeur proche de 0.
Estimation Pratique : Pour un mot de passe unique, il faut estimer son « rang » ou la probabilité cumulative de tous les mots de passe plus probables que lui. Si la masse de probabilité cumulative d'un mot de passe jusqu'à son rang est $\alpha$, alors $H_E \approx 1 - \alpha$. Cela correspond à la description de l'article selon laquelle une valeur de 0,4 signifie parcourir 40 % de l'espace.

L'algorithme précis et efficace pour estimer cela à partir d'un seul échantillon est la contribution technique centrale sous-entendue par les auteurs.

6. Résultats Expérimentaux & Description des Graphiques

Note : L'extrait PDF fourni ne contient pas de résultats expérimentaux ou de graphiques spécifiques. Ce qui suit est une description basée sur ce qu'une étude de validation typique pour une telle métrique impliquerait.

Une évaluation complète de l'Entropie d'Espérance impliquerait probablement les graphiques suivants :

Graphique 1 : Nuage de points de comparaison des métriques. Ce graphique représenterait des mots de passe sur deux axes : l'axe X montrant la robustesse en bits classique (par ex., $\log_2(94^l)$), et l'axe Y montrant l'Entropie d'Espérance (0-1). Un nuage de points révélerait la corrélation (ou son absence) entre les deux mesures, mettant en évidence les mots de passe qui sont longs (robustesse en bits élevée) mais prévisibles (Entropie d'Espérance faible).
Graphique 2 : Courbe de résistance au cassage. Cela montrerait la fraction réelle de l'espace de recherche qu'un attaquant (utilisant un outil comme Hashcat avec une attaque basée sur des règles) doit parcourir pour casser des mots de passe regroupés par leur score d'Entropie d'Espérance (par ex., 0,0-0,1, 0,1-0,2...). Une métrique idéale montrerait une ligne diagonale parfaite où l'effort prédit (Entropie) est égal à l'effort réel. Un écart par rapport à la diagonale indique une erreur d'estimation.
Graphique 3 : Distribution des scores. Un histogramme montrant les scores d'Entropie d'Espérance pour différents types de mots de passe : générés par machine (par ex., par le protocole ComPass), générés par l'homme avec des règles, et générés par l'homme sans règles. Cela démontrerait visuellement la capacité de la métrique à discriminer les méthodes de génération de mots de passe.

Le résultat clé à valider est l'affirmation : « Avoir une Entropie d'Espérance d'une certaine valeur, par exemple 0,4, signifie qu'un attaquant doit parcourir exhaustivement au moins 40 % du nombre total de tentatives. » Cela nécessite des simulations d'attaques empiriques.

7. Cadre d'Analyse : Exemple Concret

Scénario : Évaluation de deux mots de passe de 12 caractères pour un système utilisant l'espace ASCII imprimable de 94 caractères.

Mot de passe A (choisi par l'homme) : Summer2024!
Mot de passe B (généré par machine) : k9$Lp@2W#r1Z

Robustesse en Bits Classique : Les deux ont le même maximum théorique : $\log_2(94^{12}) \approx 78,7$ bits.

Analyse par l'Entropie d'Espérance :

Mot de passe A : La structure est courante : un mot du dictionnaire (« Summer »), une année prévisible (« 2024 »), et un suffixe symbolique commun (« ! »). Un modèle probabiliste (comme une chaîne de Markov entraînée sur des mots de passe divulgués) attribuerait une probabilité élevée à ce motif. Son rang dans la liste ordonnée des mots de passe probables serait très bas, ce qui signifie que la probabilité cumulative des mots de passe plus probables est élevée. Par conséquent, son Entropie d'Espérance serait faible (par ex., 0,05-0,2), indiquant qu'un attaquant le trouverait probablement dans les premiers 5-20 % d'un ordre de devinage optimisé.
Mot de passe B : Il apparaît aléatoire, sans motif évident, mélangeant les ensembles de caractères par position. Un modèle probabiliste attribuerait une probabilité très faible, approximativement uniforme, à cette séquence spécifique. Son rang serait très élevé (proche du milieu/de la fin de la liste ordonnée). Par conséquent, son Entropie d'Espérance serait élevée (par ex., 0,7-0,95), indiquant qu'un attaquant doit parcourir la majeure partie de l'espace.

Cet exemple démontre comment l'Entropie d'Espérance fournit une évaluation des risques plus nuancée et réaliste que la robustesse en bits identique de la formule classique.

8. Perspectives d'Application & Orientations Futures

Applications Immédiates :

Indicateurs de Robustesse en Temps Réel : Intégrer l'Entropie d'Espérance dans les flux d'inscription web et applicatifs pour fournir aux utilisateurs un indicateur de robustesse intuitif basé sur un pourcentage.
Application des Politiques de Sécurité : Les organisations pourraient définir des seuils minimums d'Entropie d'Espérance (par ex., 0,6) au lieu de simples règles de complexité, liant directement la politique à l'effort de cassage estimé.
Audits Automatisés des Systèmes : Analyser les bases de données de mots de passe existantes (hachées) pour estimer la distribution collective de l'Entropie d'Espérance et identifier les comptes avec des mots de passe critiques.

Orientations Futures de la Recherche :

Estimateurs Robustes pour un Seul Échantillon : Développer et comparer des méthodes statistiques (par ex., utilisant des modèles de langage neuronaux, des modèles n-grammes ou des filtres de Bloom) pour estimer avec précision la probabilité/le rang d'un seul mot de passe à partir duquel $H_E$ est dérivée.
Évaluation Adversariale : Tester la métrique contre les outils de cassage de mots de passe et modèles d'IA de pointe (par ex., PassGAN, une adaptation du cadre des Réseaux Antagonistes Génératifs pour les mots de passe) pour voir si l'effort prédit correspond aux temps de cassage réels.
Au-delà des Mots de Passe : Appliquer le concept normalisé de « fraction d'effort » à d'autres secrets, tels que les clés cryptographiques (où les bits sont standard) ou les modèles biométriques, pour créer une métrique de robustesse unifiée à travers différents facteurs d'authentification.
Efforts de Normalisation : Proposer l'Entropie d'Espérance ou ses principes à des organismes comme le NIST pour inclusion dans les futures révisions des lignes directrices sur l'identité numérique (par ex., SP 800-63B).

9. Références

Ministère fédéral allemand de l'Éducation et de la Recherche (BMBF). Détails de la subvention pour le projet PHY2APP.
M. Dell'Amico, P. Michiardi, Y. Roudier, « Password Strength: An Empirical Analysis », dans Proceedings of IEEE INFOCOM, 2010. (Représente une étude sur les méthodes d'évaluation de la robustesse des mots de passe).
National Institute of Standards and Technology (NIST). Entropy Estimation Suite. [En ligne]. Disponible : https://github.com/usnistgov/entropy-estimation
NIST Special Publication 800-90B. Recommendation for the Entropy Sources Used for Random Bit Generation.
J. Kelsey, K. A. McKay, M. Turan, « Predictive Models for Min-Entropy Estimation », dans Proceedings of CHES, 2015.
K. Reaz, G. Wunder, « ComPass: A Protocol for Secure and Usable Wi-Fi Device Provisioning », dans Proceedings of ACM WiSec, 2023. (Supposé d'après le contexte).
C. E. Shannon, « A Mathematical Theory of Communication », The Bell System Technical Journal, vol. 27, pp. 379–423, 623–656, 1948.
R. V. L. Hartley, « Transmission of Information », The Bell System Technical Journal, vol. 7, n° 3, pp. 535–563, 1928.
J. Bonneau, « The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords », dans Proceedings of IEEE Symposium on Security and Privacy, 2012.
J. L. Massey, « Guessing and Entropy », dans Proceedings of IEEE International Symposium on Information Theory (ISIT), 1994.
C. Cachin, Entropy Measures and Unconditional Security in Cryptography. Thèse de doctorat, ETH Zurich, 1997.
J. O. Pliam, « The Disparity between Work and Entropy in Cryptology », 1998. [En ligne]. Disponible : https://eprint.iacr.org/1998/024
B. Hitaj, P. Gasti, G. Ateniese, F. Perez-Cruz, « PassGAN: A Deep Learning Approach for Password Guessing », dans Proceedings of ACNS, 2019. (Référence externe pour l'évaluation par IA adverse).