Entropia di Aspettativa: Una Nuova Metrica per la Valutazione della Robustezza delle Password

1. Introduzione & Motivazione

Questo articolo introduce l'Entropia di Aspettativa, una nuova metrica progettata per stimare la robustezza di password casuali o simili a casuali. La motivazione nasce da una lacuna pratica negli strumenti esistenti di valutazione della robustezza delle password. Le formule classiche basate sulla combinatoria (ad esempio, $\log_2(\text{spazio dei caratteri}^{\text{lunghezza}})$) restituiscono risultati nell'ordine delle decine di bit, mentre la suite standard di settore NIST per la stima dell'entropia fornisce un punteggio di min-entropia normalizzato tra 0 e 1. Questa discrepanza rende difficile il confronto diretto e l'interpretazione intuitiva. L'Entropia di Aspettativa colma questa lacuna fornendo una stima della robustezza sulla stessa scala 0-1 dello strumento NIST, dove un valore di, ad esempio, 0.4 indica che un attaccante deve esaurire almeno il 40% del totale delle possibili ipotesi per trovare la password.

Il lavoro si inserisce nel contesto del progetto "PHY2APP", focalizzato sulla generazione di password simmetriche robuste per il provisioning di dispositivi Wi-Fi (protocollo ComPass) utilizzando metodi di sicurezza a livello fisico, evidenziando la necessità di una metrica di robustezza solida e scalabile.

2. Varie Definizioni di Entropia

L'entropia misura il disordine, la casualità o l'incertezza. Definizioni diverse si applicano in modo variabile alla robustezza delle password.

2.1 Min-Entropia

Definita come $H_{\infty} = -\log_2(\max(p_i))$, dove $p_i$ è la probabilità di un elemento. Rappresenta lo scenario peggiore, misurando la difficoltà di indovinare l'esito più probabile. Questa è la base per l'output della suite NIST.

2.2 Entropia di Shannon

Definita come $H_1 = -\sum_{i=1}^{N} p_i \log_2 p_i$. Fornisce una misura media del contenuto informativo ma è criticata per essere irrelata alla reale difficoltà di indovinamento nel contesto del cracking delle password, poiché ignora la lunghezza della password e la strategia ottimale dell'attaccante.

2.3 Entropia di Hartley

Definita come $H_0 = \log_2 N$, misura solo la dimensione della distribuzione (dimensione dell'alfabeto), ignorando completamente le probabilità dei caratteri.

2.4 Entropia di Indovinamento

Definita come $G = \sum_{i=1}^{N} p_i \cdot i$, dove le ipotesi sono ordinate per probabilità decrescente. Questa misura il numero atteso di tentativi richiesti da un attaccante ottimale. È più direttamente correlata al tempo pratico di cracking ma non è normalizzata.

3. Entropia di Aspettativa

3.1 Definizione & Formulazione

L'Entropia di Aspettativa si basa sul concetto di Entropia di Indovinamento ma normalizzata su una scala [0, 1]. L'idea centrale è stimare la robustezza dalla composizione di una singola password. Considera insiemi di caratteri disgiunti: lettere minuscole $L$ (|L|=26), lettere maiuscole $U$ (26), cifre $D$ (10) e simboli $S$ (32), formando uno spazio totale dei caratteri $K$ di dimensione 94 per l'inglese.

Sebbene la derivazione matematica completa per una singola password sia implicita ma non pienamente esplicita nell'estratto fornito, la metrica essenzialmente normalizza lo sforzo richiesto da un attaccante ottimale rispetto allo spazio di ricerca totale. Se $G$ è l'Entropia di Indovinamento e $N$ è il numero totale di password possibili (ad esempio, $94^{\text{lunghezza}}$ per lo spazio completo), una forma normalizzata potrebbe essere concettualmente correlata a $E \approx G / N_{eff}$, dove $N_{eff}$ è una dimensione efficace dello spazio di ricerca che considera la composizione della password.

3.2 Interpretazione & Scala

L'innovazione chiave è la sua scala interpretabile. Un valore di Entropia di Aspettativa $\alpha$ (dove $0 \le \alpha \le 1$) significa che un attaccante deve eseguire almeno una frazione $\alpha$ del totale dei tentativi richiesti (in un ordine ottimale) per craccare la password. Un valore di 1 indica una casualità ideale in cui l'attaccante deve eseguire una ricerca a forza bruta completa. Questo si allinea intuitivamente con la scala della min-entropia NIST, facilitando il confronto e il processo decisionale per i progettisti di sistemi.

4. Intuizione Fondamentale & Prospettiva dell'Analista

Intuizione Fondamentale: Reaz e Wunder non stanno semplicemente proponendo un'altra metrica di entropia; stanno tentando di risolvere una critica lacuna di usabilità e interpretabilità nell'ingegneria della sicurezza. Il vero problema non è la mancanza di misure di complessità, ma l'attrito cognitivo quando uno strumento combinatorio grida "80 bit!" e NIST sussurra "0.7". L'Entropia di Aspettativa è un traduttore pragmatico, che converte la robustezza crittografica in un punteggio di rischio probabilistico e azionabile su un cruscotto unificato.

Flusso Logico: L'argomentazione è elegantemente semplice: 1) Le metriche esistenti vivono su pianeti diversi (bit vs. punteggi normalizzati), causando confusione. 2) L'Entropia di Indovinamento ($G$) è più vicina alla realtà di un attaccante ma non è limitata. 3) Pertanto, normalizzare $G$ rispetto allo spazio di ricerca efficace per creare un punteggio 0-1 che mappa direttamente alla percentuale di sforzo richiesta all'attaccante. Questo collega il teorico (min-entropia NIST) e il pratico (carico di lavoro del cracker di password).

Punti di Forza & Debolezze: Il punto di forza è la sua elegante semplicità e l'immediata interpretabilità—una manna dal cielo per i responsabili delle politiche e gli architetti di sistema. Tuttavia, il diavolo è nei dettagli delle assunzioni distributive. L'accuratezza della metrica dipende fortemente dalla corretta modellazione della distribuzione di probabilità $p_i$ dei caratteri all'interno di un singolo campione di password, che è un problema statistico notoriamente difficile. A differenza della suite NIST che testa lunghi flussi di bit, applicare questo a una breve password di 16 caratteri richiede stimatori robusti che possono essere sensibili a distorsioni. L'articolo, dall'estratto, non dettaglia pienamente questo processo di stima per una singola istanza, che è il suo tallone d'Achille.

Approfondimenti Azionabili: Per i team di sicurezza, questa metrica potrebbe essere integrata nelle API di creazione delle password o nei plugin di Active Directory per fornire un feedback di robustezza intuitivo e in tempo reale ("La tua password richiede il 60% dei tentativi per essere craccata"). Per i ricercatori, il passo successivo deve essere una rigorosa validazione empirica su larga scala contro strumenti di cracking reali (come Hashcat o John the Ripper) per calibrare il modello. Un'Entropia di Aspettativa di 0.8 significa veramente l'80% dello spazio di ricerca? Questo necessita di prove contro modelli AI avversari, simile a come le GAN sono usate per attaccare altri domini di sicurezza. Il concetto è promettente, ma la sua utilità operativa dipende da una validazione trasparente e sottoposta a revisione paritaria al di là dell'ambiente controllato delle password generate da macchina.

5. Dettagli Tecnici & Formulazione Matematica

Sulla base dei concetti delineati, l'Entropia di Aspettativa $H_E$ per una password può essere concettualmente inquadrata. Sia una password di lunghezza $l$ estratta da un alfabeto $\mathcal{A}$ con una distribuzione di probabilità associata per ogni posizione del carattere (che può essere stimata dalla password stessa o da un corpus di riferimento).

Vettore di Probabilità Ordinato: Per l'intero spazio delle password di dimensione $N = |\mathcal{A}|^l$, si possono teoricamente ordinare tutte le password possibili in base alla loro probabilità decrescente di essere scelte (secondo il modello generativo).
Entropia di Indovinamento: Il numero atteso di tentativi per un attaccante ottimale è $G = \sum_{i=1}^{N} p_i \cdot i$, dove $p_i$ è la probabilità della $i$-esima password più probabile.
Normalizzazione: Il massimo $G$ possibile per una distribuzione uniforme è $(N+1)/2$. Una misura normalizzata dello sforzo potrebbe essere definita come: $$ H_E \approx \frac{2 \cdot G - 1}{N} $$ Questo mapperebbe una distribuzione uniforme (casualità perfetta) a $H_E \to 1$ per $N$ grande, e una password altamente prevedibile (dove $G$ è piccolo) a un valore vicino a 0.
Stima Pratica: Per una singola password, si deve stimare il suo "rango" o la probabilità cumulativa di tutte le password più probabili di essa. Se la massa di probabilità cumulativa di una password fino al suo rango è $\alpha$, allora $H_E \approx 1 - \alpha$. Questo si allinea con la descrizione dell'articolo che un valore di 0.4 significa cercare il 40% dello spazio.

L'algoritmo preciso ed efficiente per stimare questo da un singolo campione è il contributo tecnico centrale implicato dagli autori.

6. Risultati Sperimentali & Descrizione dei Grafici

Nota: L'estratto PDF fornito non contiene risultati sperimentali specifici o grafici. Quanto segue è una descrizione basata su ciò che uno studio di validazione tipico per una tale metrica coinvolgerebbe.

Una valutazione completa dell'Entropia di Aspettativa probabilmente coinvolgerebbe i seguenti grafici:

Grafico 1: Diagramma a Dispersione di Confronto delle Metriche. Questo grafico traccerebbe le password su due assi: l'asse X mostra la robustezza in bit classica (ad esempio, $\log_2(94^l)$), e l'asse Y mostra l'Entropia di Aspettativa (0-1). Una nuvola di punti rivelerebbe la correlazione (o la sua mancanza) tra le due misure, evidenziando password che sono lunghe (alta robustezza in bit) ma prevedibili (bassa Entropia di Aspettativa).
Grafico 2: Curva di Resistenza al Cracking. Questo mostrerebbe l'effettiva frazione dello spazio di ricerca che un attaccante (utilizzando uno strumento come Hashcat con un attacco basato su regole) deve attraversare per craccare password raggruppate per il loro punteggio di Entropia di Aspettativa (ad esempio, 0.0-0.1, 0.1-0.2...). Una metrica ideale mostrerebbe una perfetta linea diagonale dove lo sforzo previsto (Entropia) è uguale allo sforzo effettivo. La deviazione dalla diagonale indica un errore di stima.
Grafico 3: Distribuzione dei Punteggi. Un istogramma che mostra i punteggi di Entropia di Aspettativa per diversi tipi di password: generate da macchina (ad esempio, dal protocollo ComPass), generate da umani con regole e generate da umani senza regole. Questo dimostrerebbe visivamente la capacità della metrica di discriminare tra i metodi di generazione delle password.

Il risultato chiave da validare è l'affermazione: "Avere un'Entropia di Aspettativa di un certo valore, ad esempio 0.4, significa che un attaccante deve esaurire almeno il 40% del numero totale di tentativi." Ciò richiede simulazioni di attacco empiriche.

7. Quadro di Analisi: Caso Esempio

Scenario: Valutazione di due password di 12 caratteri per un sistema che utilizza lo spazio ASCII stampabile di 94 caratteri.

Password A (Scelta da umano): Summer2024!
Password B (Generata da macchina): k9$Lp@2W#r1Z

Robustezza in Bit Classica: Entrambe hanno lo stesso massimo teorico: $\log_2(94^{12}) \approx 78.7$ bit.

Analisi dell'Entropia di Aspettativa:

Password A: La struttura è comune: una parola del dizionario ("Summer"), un anno prevedibile ("2024") e un simbolo suffisso comune ("!"). Un modello probabilistico (come una catena di Markov addestrata su password violate) assegnerebbe un'alta probabilità a questo schema. Il suo rango nella lista ordinata delle password probabili sarebbe molto basso, il che significa che la probabilità cumulativa delle password più probabili è alta. Pertanto, la sua Entropia di Aspettativa sarebbe bassa (ad esempio, 0.05-0.2), indicando che un attaccante la troverebbe probabilmente nel primo 5-20% di un ordine di tentativi ottimizzato.
Password B: Appare casuale, senza uno schema ovvio, mescolando insiemi di caratteri per posizione. Un modello probabilistico assegnerebbe una probabilità molto bassa, approssimativamente uniforme, a questa specifica sequenza. Il suo rango sarebbe molto alto (vicino al centro/fine della lista ordinata). Pertanto, la sua Entropia di Aspettativa sarebbe alta (ad esempio, 0.7-0.95), indicando che un attaccante deve cercare la maggior parte dello spazio.

Questo esempio dimostra come l'Entropia di Aspettativa fornisca una valutazione del rischio più sfumata e realistica rispetto all'identica robustezza in bit della formula classica.

8. Prospettive Applicative & Direzioni Future

Applicazioni Immediate:

Misuratori di Robustezza Password in Tempo Reale: Integrare l'Entropia di Aspettativa nei flussi di registrazione web e applicativi per fornire agli utenti un indicatore di robustezza intuitivo e basato su percentuale.
Applicazione delle Politiche di Sicurezza: Le organizzazioni potrebbero impostare soglie minime di Entropia di Aspettativa (ad esempio, 0.6) invece di sole regole di complessità, legando direttamente la politica allo sforzo di cracking stimato.
Audit Automatici di Sistema: Scansionare database di password esistenti (hash) per stimare la distribuzione collettiva dell'Entropia di Aspettativa e identificare account con password criticamente deboli.

Direzioni Future di Ricerca:

Stimatori Robusti per Singolo Campione: Sviluppare e confrontare metodi statistici (ad esempio, utilizzando modelli linguistici neurali, modelli n-grammi o filtri di Bloom) per stimare accuratamente la probabilità/rango di una singola password da cui si deriva $H_E$.
Valutazione Avversaria: Testare la metrica contro strumenti di cracking password all'avanguardia e modelli AI (ad esempio, PassGAN, un adattamento del framework Generative Adversarial Network per le password) per vedere se lo sforzo previsto corrisponde ai tempi effettivi di cracking.
Oltre le Password: Applicare il concetto normalizzato di "frazione di sforzo" ad altri segreti, come chiavi crittografiche (dove i bit sono standard) o modelli biometrici, per creare una metrica di robustezza unificata tra diversi fattori di autenticazione.
Sforzi di Standardizzazione: Proporre l'Entropia di Aspettativa o i suoi principi a enti come il NIST per l'inclusione nelle future revisioni delle linee guida per l'identità digitale (ad esempio, SP 800-63B).

9. Riferimenti

Ministero Federale Tedesco dell'Istruzione e della Ricerca (BMBF). Dettagli del finanziamento per il progetto PHY2APP.
M. Dell'Amico, P. Michiardi, Y. Roudier, "Password Strength: An Empirical Analysis," in Proceedings of IEEE INFOCOM, 2010. (Rappresenta un'indagine sui metodi di robustezza delle password).
National Institute of Standards and Technology (NIST). Entropy Estimation Suite. [Online]. Disponibile: https://github.com/usnistgov/entropy-estimation
NIST Special Publication 800-90B. Recommendation for the Entropy Sources Used for Random Bit Generation.
J. Kelsey, K. A. McKay, M. Turan, "Predictive Models for Min-Entropy Estimation," in Proceedings of CHES, 2015.
K. Reaz, G. Wunder, "ComPass: A Protocol for Secure and Usable Wi-Fi Device Provisioning," in Proceedings of ACM WiSec, 2023. (Assunto dal contesto).
C. E. Shannon, "A Mathematical Theory of Communication," The Bell System Technical Journal, vol. 27, pp. 379–423, 623–656, 1948.
R. V. L. Hartley, "Transmission of Information," The Bell System Technical Journal, vol. 7, no. 3, pp. 535–563, 1928.
J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," in Proceedings of IEEE Symposium on Security and Privacy, 2012.
J. L. Massey, "Guessing and Entropy," in Proceedings of IEEE International Symposium on Information Theory (ISIT), 1994.
C. Cachin, Entropy Measures and Unconditional Security in Cryptography. Tesi di Dottorato, ETH Zurigo, 1997.
J. O. Pliam, "The Disparity between Work and Entropy in Cryptology," 1998. [Online]. Disponibile: https://eprint.iacr.org/1998/024
B. Hitaj, P. Gasti, G. Ateniese, F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," in Proceedings of ACNS, 2019. (Riferimento esterno per la valutazione AI avversaria).