Erwartungsentropie: Eine neue Metrik zur Bewertung der Passwortstärke

1. Einleitung & Motivation

Dieses Papier stellt die Erwartungsentropie vor, eine neuartige Metrik zur Abschätzung der Stärke von zufälligen oder zufallsähnlichen Passwörtern. Die Motivation ergibt sich aus einer praktischen Lücke in bestehenden Werkzeugen zur Passwortstärkebewertung. Klassische, auf Kombinatorik basierende Formeln (z.B. $\log_2(\text{Zeichenraum}^{\text{Länge}})$) liefern Ergebnisse in der Größenordnung von Dutzenden Bits, während die industrieübliche NIST-Entropie-Schätzbibliothek einen normalisierten Min-Entropie-Wert zwischen 0 und 1 ausgibt. Diese Diskrepanz erschwert einen direkten Vergleich und eine intuitive Interpretation. Die Erwartungsentropie schließt diese Lücke, indem sie eine Stärkeabschätzung auf derselben 0-1-Skala wie das NIST-Werkzeug liefert, wobei ein Wert von z.B. 0,4 anzeigt, dass ein Angreifer mindestens 40 % aller möglichen Versuche durchsuchen muss, um das Passwort zu finden.

Die Arbeit ist im Kontext des "PHY2APP"-Projekts angesiedelt, das sich auf die Erzeugung starker symmetrischer Passwörter für die Wi-Fi-Gerätebereitstellung (ComPass-Protokoll) mithilfe von Physical-Layer-Security-Methoden konzentriert und den Bedarf an einer robusten, skalierbaren Stärkemetrik hervorhebt.

2. Verschiedene Definitionen von Entropie

Entropie misst Unordnung, Zufälligkeit oder Unsicherheit. Unterschiedliche Definitionen lassen sich unterschiedlich auf die Passwortstärke anwenden.

2.1 Min-Entropie

Definiert als $H_{\infty} = -\log_2(\max(p_i))$, wobei $p_i$ die Wahrscheinlichkeit eines Elements ist. Sie repräsentiert den Worst-Case und misst die Schwierigkeit, das wahrscheinlichste Ergebnis zu erraten. Dies ist die Grundlage für die Ausgabe der NIST-Bibliothek.

2.2 Shannon-Entropie

Definiert als $H_1 = -\sum_{i=1}^{N} p_i \log_2 p_i$. Sie liefert ein durchschnittliches Maß für den Informationsgehalt, wird aber dafür kritisiert, dass sie im Kontext des Passwortknackens keinen Bezug zur tatsächlichen Ratschwierigkeit hat, da sie die Passwortlänge und die optimale Strategie eines Angreifers ignoriert.

2.3 Hartley-Entropie

Definiert als $H_0 = \log_2 N$, misst sie nur die Größe der Verteilung (Alphabetgröße) und ignoriert Zeichenwahrscheinlichkeiten vollständig.

2.4 Raten-Entropie (Guessing Entropy)

Definiert als $G = \sum_{i=1}^{N} p_i \cdot i$, wobei die Rateversuche nach absteigender Wahrscheinlichkeit geordnet sind. Dies misst die erwartete Anzahl von Versuchen, die ein optimaler Angreifer benötigt. Sie steht in direkterem Zusammenhang mit der praktischen Knackzeit, ist aber nicht normalisiert.

3. Erwartungsentropie

3.1 Definition & Formulierung

Die Erwartungsentropie baut auf dem Konzept der Raten-Entropie auf, ist jedoch auf eine [0, 1]-Skala normalisiert. Die Kernidee ist, die Stärke aus der Zusammensetzung eines einzelnen Passworts abzuschätzen. Sie berücksichtigt disjunkte Zeichensätze: Kleinbuchstaben $L$ (|L|=26), Großbuchstaben $U$ (26), Ziffern $D$ (10) und Sonderzeichen $S$ (32), die für das englische Alphabet einen Gesamtzeichenraum $K$ der Größe 94 bilden.

Während die vollständige mathematische Herleitung für ein einzelnes Passwort im bereitgestellten Auszug impliziert, aber nicht vollständig explizit ist, normalisiert die Metrik im Wesentlichen den Aufwand, den ein optimaler Angreifer relativ zum gesamten Suchraum benötigt. Wenn $G$ die Raten-Entropie und $N$ die Gesamtzahl möglicher Passwörter ist (z.B. $94^{\text{Länge}}$ für den vollen Raum), könnte eine normalisierte Form konzeptionell mit $E \approx G / N_{eff}$ in Beziehung stehen, wobei $N_{eff}$ eine effektive Suchraumgröße unter Berücksichtigung der Passwortzusammensetzung ist.

3.2 Interpretation & Skala

Die entscheidende Innovation ist ihre interpretierbare Skala. Ein Erwartungsentropie-Wert von $\alpha$ (wobei $0 \le \alpha \le 1$) bedeutet, dass ein Angreifer mindestens einen Bruchteil $\alpha$ der insgesamt erforderlichen Rateversuche (in optimaler Reihenfolge) durchführen muss, um das Passwort zu knacken. Ein Wert von 1 weist auf ideale Zufälligkeit hin, bei der der Angreifer eine vollständige Brute-Force-Suche durchführen muss. Dies steht intuitiv im Einklang mit der NIST-Min-Entropie-Skala und erleichtert Systemdesignern den Vergleich und die Entscheidungsfindung.

4. Kernaussage & Analystenperspektive

Kernaussage: Reaz und Wunder schlagen nicht einfach eine weitere Entropiemetrik vor; sie versuchen, eine kritische Lücke in der Usability und Interpretierbarkeit im Security Engineering zu schließen. Das eigentliche Problem ist nicht ein Mangel an Komplexitätsmaßen, sondern die kognitive Reibung, wenn ein kombinatorisches Werkzeug "80 Bit!" schreit und NIST "0,7" flüstert. Die Erwartungsentropie ist ein pragmatischer Übersetzer, der kryptografische Stärke in einen handlungsorientierten, probabilistischen Risikoscore auf einem einheitlichen Dashboard umwandelt.

Logischer Ablauf: Das Argument ist elegant einfach: 1) Bestehende Metriken existieren auf verschiedenen Planeten (Bits vs. normalisierte Scores), was Verwirrung stiftet. 2) Die Raten-Entropie ($G$) ist näher an der Realität eines Angreifers, ist aber nicht begrenzt. 3) Daher wird $G$ relativ zum effektiven Suchraum normalisiert, um einen 0-1-Score zu schaffen, der direkt auf den prozentualen Aufwand eines Angreifers abbildet. Dies überbrückt das Theoretische (NISTs Min-Entropie) und das Praktische (Arbeitsaufwand eines Passwortknackers).

Stärken & Schwächen: Die Stärke liegt in ihrer eleganten Einfachheit und unmittelbaren Interpretierbarkeit – ein Segen für Entscheidungsträger und Systemarchitekten. Der Teufel steckt jedoch in den Verteilungsannahmen. Die Genauigkeit der Metrik hängt stark von einer korrekten Modellierung der Wahrscheinlichkeitsverteilung $p_i$ der Zeichen innerhalb einer einzelnen Passwortstichprobe ab, was ein notorisch schwieriges statistisches Problem ist. Im Gegensatz zur NIST-Bibliothek, die lange Bitströme testet, erfordert die Anwendung auf ein kurzes 16-stelliges Passwort robuste Schätzer, die gegenüber Verzerrungen empfindlich sein können. Das Papier beschreibt, dem Auszug nach, diesen Schätzprozess für eine einzelne Instanz nicht vollständig, was seine Achillesferse ist.

Umsetzbare Erkenntnisse: Für Sicherheitsteams könnte diese Metrik in Passworterstellungs-APIs oder Active-Directory-Plugins integriert werden, um eine intuitive Echtzeit-Feedback zur Stärke zu geben ("Ihr Passwort erfordert 60 % der Rateversuche zum Knacken"). Für Forscher muss der nächste Schritt eine rigorose, groß angelegte empirische Validierung gegen reale Knackwerkzeuge (wie Hashcat oder John the Ripper) sein, um das Modell zu kalibrieren. Bedeutet eine Erwartungsentropie von 0,8 wirklich 80 % des Suchraums? Dies muss gegen adversarische KI-Modelle bewiesen werden, ähnlich wie GANs in anderen Sicherheitsdomänen eingesetzt werden. Das Konzept ist vielversprechend, aber seine operative Nützlichkeit hängt von einer transparenten, peer-reviewten Validierung jenseits der kontrollierten Umgebung maschinell erzeugter Passwörter ab.

5. Technische Details & Mathematische Formulierung

Basierend auf den skizzierten Konzepten kann die Erwartungsentropie $H_E$ für ein Passwort konzeptionell gerahmt werden. Ein Passwort der Länge $l$ sei aus einem Alphabet $\mathcal{A}$ mit einer zugehörigen Wahrscheinlichkeitsverteilung für jede Zeichenposition gezogen (die aus dem Passwort selbst oder einem Referenzkorpus geschätzt werden kann).

Geordneter Wahrscheinlichkeitsvektor: Für den gesamten Passwortraum der Größe $N = |\mathcal{A}|^l$ kann man theoretisch alle möglichen Passwörter nach ihrer absteigenden Wahrscheinlichkeit, gewählt zu werden (gemäß dem generativen Modell), ordnen.
Raten-Entropie: Die erwartete Anzahl von Versuchen für einen optimalen Angreifer ist $G = \sum_{i=1}^{N} p_i \cdot i$, wobei $p_i$ die Wahrscheinlichkeit des $i$-ten wahrscheinlichsten Passworts ist.
Normalisierung: Der maximal mögliche $G$ für eine Gleichverteilung ist $(N+1)/2$. Ein normalisiertes Maß für den Aufwand könnte definiert werden als: $$ H_E \approx \frac{2 \cdot G - 1}{N} $$ Dies würde eine Gleichverteilung (perfekte Zufälligkeit) auf $H_E \to 1$ für großes $N$ abbilden und ein hoch vorhersagbares Passwort (bei dem $G$ klein ist) auf einen Wert nahe 0.
Praktische Schätzung: Für ein einzelnes Passwort muss man seinen "Rang" oder die kumulative Wahrscheinlichkeit aller wahrscheinlicheren Passwörter schätzen. Wenn die kumulative Wahrscheinlichkeitsmasse bis zu seinem Rang $\alpha$ ist, dann gilt $H_E \approx 1 - \alpha$. Dies stimmt mit der Beschreibung im Papier überein, dass ein Wert von 0,4 bedeutet, 40 % des Raums zu durchsuchen.

Der präzise, effiziente Algorithmus zur Schätzung dieses Werts aus einer einzelnen Stichprobe ist der implizierte Kernbeitrag der Autoren.

6. Experimentelle Ergebnisse & Diagrammbeschreibung

Hinweis: Der bereitgestellte PDF-Auszug enthält keine spezifischen experimentellen Ergebnisse oder Diagramme. Die folgende Beschreibung basiert auf dem, was eine typische Validierungsstudie für eine solche Metrik umfassen würde.

Eine umfassende Bewertung der Erwartungsentropie würde wahrscheinlich die folgenden Diagramme umfassen:

Diagramm 1: Metriken-Vergleichs-Streudiagramm. Dieses Diagramm würde Passwörter auf zwei Achsen darstellen: Die X-Achse zeigt die klassische Bit-Stärke (z.B. $\log_2(94^l)$), die Y-Achse zeigt die Erwartungsentropie (0-1). Eine Punktwolke würde die Korrelation (oder deren Fehlen) zwischen den beiden Maßen aufzeigen und Passwörter hervorheben, die lang sind (hohe Bit-Stärke) aber vorhersagbar (niedrige Erwartungsentropie).
Diagramm 2: Knackwiderstandskurve. Dies würde den tatsächlichen Bruchteil des Suchraums zeigen, den ein Angreifer (mit einem Werkzeug wie Hashcat und einem regelbasierten Angriff) durchsuchen muss, um Passwörter zu knacken, die nach ihrem Erwartungsentropie-Score gruppiert sind (z.B. 0,0-0,1, 0,1-0,2...). Eine ideale Metrik würde eine perfekte diagonale Linie zeigen, bei der der vorhergesagte Aufwand (Entropie) dem tatsächlichen Aufwand entspricht. Abweichungen von der Diagonalen zeigen Schätzfehler an.
Diagramm 3: Verteilung der Scores. Ein Histogramm, das die Erwartungsentropie-Scores für verschiedene Passworttypen zeigt: maschinell erzeugt (z.B. aus dem ComPass-Protokoll), menschlich erzeugt mit Regeln und menschlich erzeugt ohne Regeln. Dies würde visuell die Fähigkeit der Metrik demonstrieren, zwischen Passworterzeugungsmethoden zu unterscheiden.

Das zu validierende Hauptergebnis ist die Behauptung: "Eine Erwartungsentropie von einem bestimmten Wert, zum Beispiel 0,4, bedeutet, dass ein Angreifer mindestens 40 % der Gesamtzahl der Rateversuche erschöpfend durchsuchen muss." Dies erfordert empirische Angriffssimulationen.

7. Analyse-Framework: Beispielszenario

Szenario: Bewertung zweier 12-stelliger Passwörter für ein System, das den 94-stelligen druckbaren ASCII-Zeichenraum verwendet.

Passwort A (Menschlich gewählt): Summer2024!
Passwort B (Maschinell erzeugt): k9$Lp@2W#r1Z

Klassische Bit-Stärke: Beide haben die gleiche theoretische Maximalstärke: $\log_2(94^{12}) \approx 78,7$ Bit.

Erwartungsentropie-Analyse:

Passwort A: Die Struktur ist gängig: ein Wörterbuchwort ("Summer"), ein vorhersagbares Jahr ("2024") und ein gängiges Suffix-Symbol ("!"). Ein probabilistisches Modell (wie eine Markov-Kette, die auf geleakten Passwörtern trainiert wurde) würde diesem Muster eine hohe Wahrscheinlichkeit zuweisen. Sein Rang in der geordneten Liste wahrscheinlicher Passwörter wäre sehr niedrig, was bedeutet, dass die kumulative Wahrscheinlichkeit wahrscheinlicherer Passwörter hoch ist. Daher wäre seine Erwartungsentropie niedrig (z.B. 0,05-0,2), was darauf hindeutet, dass ein Angreifer es wahrscheinlich in den ersten 5-20 % einer optimierten Rate-Reihenfolge finden würde.
Passwort B: Es erscheint zufällig, ohne offensichtliches Muster, mit gemischten Zeichensätzen pro Position. Ein probabilistisches Modell würde dieser spezifischen Sequenz eine sehr niedrige, etwa gleichmäßige Wahrscheinlichkeit zuweisen. Sein Rang wäre sehr hoch (nahe der Mitte/des Endes der geordneten Liste). Daher wäre seine Erwartungsentropie hoch (z.B. 0,7-0,95), was darauf hindeutet, dass ein Angreifer den größten Teil des Raums durchsuchen muss.

Dieses Beispiel zeigt, wie die Erwartungsentropie eine differenziertere und realistischere Risikobewertung liefert als die identische Bit-Stärke aus der klassischen Formel.

8. Anwendungsausblick & Zukünftige Richtungen

Unmittelbare Anwendungen:

Echtzeit-Passwortstärke-Messgeräte: Integration der Erwartungsentropie in Web- und Anmeldeabläufe von Anwendungen, um Benutzern einen intuitiven, prozentbasierten Stärkeindikator zu geben.
Sicherheitsrichtlinien-Durchsetzung: Organisationen könnten Mindestschwellenwerte für die Erwartungsentropie festlegen (z.B. 0,6) anstatt nur Komplexitätsregeln, wodurch die Richtlinie direkt mit dem geschätzten Knackaufwand verknüpft wird.
Automatisierte Systemaudits: Scannen bestehender Passwortdatenbanken (gehasht), um die kollektive Verteilung der Erwartungsentropie zu schätzen und Konten mit kritisch schwachen Passwörtern zu identifizieren.

Zukünftige Forschungsrichtungen:

Robuste Einzelstichproben-Schätzer: Entwicklung und Vergleich statistischer Methoden (z.B. unter Verwendung neuronaler Sprachmodelle, n-Gramm-Modelle oder Bloom-Filter), um die Wahrscheinlichkeit/den Rang eines einzelnen Passworts, aus dem $H_E$ abgeleitet wird, genau zu schätzen.
Adversarische Evaluation: Testen der Metrik gegen modernste Passwortknackwerkzeuge und KI-Modelle (z.B. PassGAN, eine Adaption des Generative Adversarial Network Frameworks für Passwörter), um zu sehen, ob der vorhergesagte Aufwand mit den tatsächlichen Knackzeiten übereinstimmt.
Jenseits von Passwörtern: Anwendung des normalisierten "Aufwandsbruchteils"-Konzepts auf andere Geheimnisse, wie kryptografische Schlüssel (wo Bits Standard sind) oder biometrische Templates, um eine einheitliche Stärkemetrik über verschiedene Authentifizierungsfaktoren hinweg zu schaffen.
Standardisierungsbemühungen: Vorschlag der Erwartungsentropie oder ihrer Prinzipien an Gremien wie NIST zur Aufnahme in zukünftige Revisionen von Richtlinien für digitale Identität (z.B. SP 800-63B).

9. Referenzen

Bundesministerium für Bildung und Forschung (BMBF). Förderdetails für das Projekt PHY2APP.
M. Dell'Amico, P. Michiardi, Y. Roudier, "Password Strength: An Empirical Analysis," in Proceedings of IEEE INFOCOM, 2010. (Repräsentiert Übersicht über Passwortstärkemethoden).
National Institute of Standards and Technology (NIST). Entropy Estimation Suite. [Online]. Verfügbar: https://github.com/usnistgov/entropy-estimation
NIST Special Publication 800-90B. Recommendation for the Entropy Sources Used for Random Bit Generation.
J. Kelsey, K. A. McKay, M. Turan, "Predictive Models for Min-Entropy Estimation," in Proceedings of CHES, 2015.
K. Reaz, G. Wunder, "ComPass: A Protocol for Secure and Usable Wi-Fi Device Provisioning," in Proceedings of ACM WiSec, 2023. (Aus dem Kontext angenommen).
C. E. Shannon, "A Mathematical Theory of Communication," The Bell System Technical Journal, Bd. 27, S. 379–423, 623–656, 1948.
R. V. L. Hartley, "Transmission of Information," The Bell System Technical Journal, Bd. 7, Nr. 3, S. 535–563, 1928.
J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," in Proceedings of IEEE Symposium on Security and Privacy, 2012.
J. L. Massey, "Guessing and Entropy," in Proceedings of IEEE International Symposium on Information Theory (ISIT), 1994.
C. Cachin, Entropy Measures and Unconditional Security in Cryptography. PhD Thesis, ETH Zürich, 1997.
J. O. Pliam, "The Disparity between Work and Entropy in Cryptology," 1998. [Online]. Verfügbar: https://eprint.iacr.org/1998/024
B. Hitaj, P. Gasti, G. Ateniese, F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," in Proceedings of ACNS, 2019. (Externe Referenz für adversarische KI-Evaluation).