Entropia de Expectativa: Uma Nova Métrica para Avaliação da Força de Senhas

1. Introdução & Motivação

Este artigo apresenta a Entropia de Expectativa, uma nova métrica projetada para estimar a força de senhas aleatórias ou semelhantes a aleatórias. A motivação decorre de uma lacuna prática nas ferramentas existentes de avaliação da força de senhas. As fórmulas clássicas baseadas em combinatória (por exemplo, $\log_2(\text{espaço de caracteres}^{\text{comprimento}})$) produzem resultados na casa das dezenas de bits, enquanto o conjunto de ferramentas padrão do setor, o NIST Entropy Estimation Suite, fornece uma pontuação de entropia mínima normalizada entre 0 e 1. Esta discrepância torna difícil a comparação direta e a interpretação intuitiva. A Entropia de Expectativa preenche essa lacuna fornecendo uma estimativa de força na mesma escala de 0 a 1 da ferramenta do NIST, onde um valor de, por exemplo, 0,4 indica que um atacante deve pesquisar exaustivamente pelo menos 40% do total de tentativas possíveis para encontrar a senha.

O trabalho está contextualizado no projeto "PHY2APP", focando na geração de senhas simétricas fortes para provisionamento de dispositivos Wi-Fi (protocolo ComPass) usando métodos de Segurança da Camada Física, destacando a necessidade de uma métrica de força robusta e escalável.

2. Várias Definições de Entropia

A entropia mede desordem, aleatoriedade ou incerteza. Diferentes definições se aplicam de forma variada à força de senhas.

2.1 Entropia Mínima

Definida como $H_{\infty} = -\log_2(\max(p_i))$, onde $p_i$ é a probabilidade de um elemento. Ela representa o pior cenário, medindo a dificuldade de adivinhar o resultado mais provável. Esta é a base para a saída do conjunto de ferramentas do NIST.

2.2 Entropia de Shannon

Definida como $H_1 = -\sum_{i=1}^{N} p_i \log_2 p_i$. Ela fornece uma medida média do conteúdo de informação, mas é criticada por não estar relacionada à dificuldade real de adivinhação em contextos de quebra de senhas, pois ignora o comprimento da senha e a estratégia ótima do atacante.

2.3 Entropia de Hartley

Definida como $H_0 = \log_2 N$, ela mede apenas o tamanho da distribuição (tamanho do alfabeto), ignorando completamente as probabilidades dos caracteres.

2.4 Entropia de Adivinhação

Definida como $G = \sum_{i=1}^{N} p_i \cdot i$, onde as tentativas são ordenadas por probabilidade decrescente. Esta mede o número esperado de tentativas necessárias para um atacante ótimo. Está mais diretamente relacionada ao tempo prático de quebra, mas não é normalizada.

3. Entropia de Expectativa

3.1 Definição & Formulação

A Entropia de Expectativa é construída sobre o conceito de Entropia de Adivinhação, mas normalizada para uma escala [0, 1]. A ideia central é estimar a força a partir da composição de uma única senha. Ela considera conjuntos de caracteres disjuntos: letras minúsculas $L$ (|L|=26), letras maiúsculas $U$ (26), dígitos $D$ (10) e símbolos $S$ (32), formando um espaço total de caracteres $K$ de tamanho 94 para o inglês.

Embora a derivação matemática completa para uma única senha esteja implícita, mas não totalmente explícita no excerto fornecido, a métrica essencialmente normaliza o esforço necessário para um atacante ótimo em relação ao espaço de busca total. Se $G$ é a Entropia de Adivinhação e $N$ é o número total de senhas possíveis (por exemplo, $94^{\text{comprimento}}$ para o espaço completo), uma forma normalizada poderia estar conceitualmente relacionada a $E \approx G / N_{eff}$, onde $N_{eff}$ é um tamanho efetivo do espaço de busca considerando a composição da senha.

3.2 Interpretação & Escala

A inovação chave é sua escala interpretável. Um valor de Entropia de Expectativa de $\alpha$ (onde $0 \le \alpha \le 1$) significa que um atacante deve realizar pelo menos uma fração $\alpha$ do total de tentativas necessárias (em uma ordem ótima) para quebrar a senha. Um valor de 1 indica aleatoriedade ideal, onde o atacante deve realizar uma busca de força bruta completa. Isto se alinha intuitivamente com a escala de entropia mínima do NIST, facilitando a comparação e a tomada de decisão para projetistas de sistemas.

4. Ideia Central & Perspectiva do Analista

Ideia Central: Reaz e Wunder não estão apenas propondo outra métrica de entropia; eles estão tentando resolver uma lacuna crítica de usabilidade e interpretabilidade na engenharia de segurança. O problema real não é a falta de medidas de complexidade, mas o atrito cognitivo quando uma ferramenta de combinatória grita "80 bits!" e o NIST sussurra "0,7". A Entropia de Expectativa é um tradutor pragmático, convertendo a força criptográfica em uma pontuação de risco probabilística e acionável em um painel unificado.

Fluxo Lógico: O argumento é elegantemente simples: 1) As métricas existentes vivem em planetas diferentes (bits vs. pontuações normalizadas), causando confusão. 2) A Entropia de Adivinhação ($G$) está mais próxima da realidade de um atacante, mas não é limitada. 3) Portanto, normalize $G$ em relação ao espaço de busca efetivo para criar uma pontuação de 0 a 1 que mapeie diretamente a porcentagem de esforço exigida do atacante. Isto faz a ponte entre o teórico (entropia mínima do NIST) e o prático (carga de trabalho do quebrador de senhas).

Pontos Fortes & Fraquezas: O ponto forte é sua elegante simplicidade e interpretabilidade imediata—uma dádiva para formuladores de políticas e arquitetos de sistemas. No entanto, o diabo está nas suposições distribucionais. A precisão da métrica depende fortemente da modelagem correta da distribuição de probabilidade $p_i$ dos caracteres dentro de uma única amostra de senha, o que é um problema estatístico notoriamente difícil. Ao contrário do conjunto do NIST, que testa fluxos de bits longos, aplicar isso a uma senha curta de 16 caracteres requer estimadores robustos que podem ser sensíveis a vieses. O artigo, a partir do excerto, não detalha totalmente este processo de estimativa para uma única instância, o que é seu calcanhar de Aquiles.

Insights Acionáveis: Para equipes de segurança, esta métrica poderia ser integrada em APIs de criação de senhas ou plugins do Active Directory para fornecer feedback de força intuitivo e em tempo real ("Sua senha requer 60% das tentativas para ser quebrada"). Para pesquisadores, o próximo passo deve ser uma validação empírica rigorosa e em larga escala contra ferramentas de quebra do mundo real (como Hashcat ou John the Ripper) para calibrar o modelo. Uma Entropia de Expectativa de 0,8 realmente significa 80% do espaço de busca? Isto precisa de prova contra modelos de IA adversariais, semelhante a como GANs são usados para atacar outros domínios de segurança. O conceito é promissor, mas sua utilidade operacional depende de uma validação transparente e revisada por pares além do ambiente controlado de senhas geradas por máquina.

5. Detalhes Técnicos & Formulação Matemática

Com base nos conceitos delineados, a Entropia de Expectativa $H_E$ para uma senha pode ser conceitualmente enquadrada. Seja uma senha de comprimento $l$ extraída de um alfabeto $\mathcal{A}$ com uma distribuição de probabilidade associada para cada posição de caractere (que pode ser estimada a partir da própria senha ou de um corpus de referência).

Vetor de Probabilidade Ordenado: Para todo o espaço de senhas de tamanho $N = |\mathcal{A}|^l$, pode-se teoricamente ordenar todas as senhas possíveis por sua probabilidade decrescente de serem escolhidas (de acordo com o modelo generativo).
Entropia de Adivinhação: O número esperado de tentativas para um atacante ótimo é $G = \sum_{i=1}^{N} p_i \cdot i$, onde $p_i$ é a probabilidade da $i$-ésima senha mais provável.
Normalização: O $G$ máximo possível para uma distribuição uniforme é $(N+1)/2$. Uma medida normalizada de esforço poderia ser definida como: $$ H_E \approx \frac{2 \cdot G - 1}{N} $$ Isto mapearia uma distribuição uniforme (aleatoriedade perfeita) para $H_E \to 1$ à medida que $N$ cresce, e uma senha altamente previsível (onde $G$ é pequeno) para um valor próximo de 0.
Estimação Prática: Para uma única senha, deve-se estimar sua "classificação" ou a probabilidade cumulativa de todas as senhas mais prováveis do que ela. Se a massa de probabilidade cumulativa de uma senha até sua classificação é $\alpha$, então $H_E \approx 1 - \alpha$. Isto se alinha com a descrição do artigo de que um valor de 0,4 significa pesquisar 40% do espaço.

O algoritmo preciso e eficiente para estimar isso a partir de uma única amostra é a contribuição técnica central implícita dos autores.

6. Resultados Experimentais & Descrição de Gráficos

Nota: O excerto do PDF fornecido não contém resultados experimentais específicos ou gráficos. A seguir está uma descrição baseada no que um estudo de validação típico para tal métrica envolveria.

Uma avaliação abrangente da Entropia de Expectativa provavelmente envolveria os seguintes gráficos:

Gráfico 1: Gráfico de Dispersão de Comparação de Métricas. Este gráfico plotaria senhas em dois eixos: Eixo X mostrando a força clássica em bits (por exemplo, $\log_2(94^l)$), e Eixo Y mostrando a Entropia de Expectativa (0-1). Uma nuvem de pontos revelaria a correlação (ou falta dela) entre as duas medidas, destacando senhas que são longas (alta força em bits) mas previsíveis (baixa Entropia de Expectativa).
Gráfico 2: Curva de Resistência à Quebra. Isto mostraria a fração real do espaço de busca que um atacante (usando uma ferramenta como Hashcat com um ataque baseado em regras) deve percorrer para quebrar senhas agrupadas por sua pontuação de Entropia de Expectativa (por exemplo, 0,0-0,1, 0,1-0,2...). Uma métrica ideal mostraria uma linha diagonal perfeita onde o esforço previsto (Entropia) é igual ao esforço real. O desvio da diagonal indica erro de estimativa.
Gráfico 3: Distribuição das Pontuações. Um histograma mostrando as pontuações de Entropia de Expectativa para diferentes tipos de senhas: geradas por máquina (por exemplo, do protocolo ComPass), geradas por humanos com regras e geradas por humanos sem regras. Isto demonstraria visualmente a capacidade da métrica de discriminar entre métodos de geração de senhas.

O resultado chave a validar é a afirmação: "Ter uma Entropia de Expectativa de um determinado valor, por exemplo, 0,4, significa que um atacante tem que pesquisar exaustivamente pelo menos 40% do número total de tentativas." Isto requer simulações de ataque empíricas.

7. Estrutura de Análise: Caso de Exemplo

Cenário: Avaliando duas senhas de 12 caracteres para um sistema usando o espaço ASCII imprimível de 94 caracteres.

Senha A (Escolhida por humano): Summer2024!
Senha B (Gerada por máquina): k9$Lp@2W#r1Z

Força Clássica em Bits: Ambas têm o mesmo máximo teórico: $\log_2(94^{12}) \approx 78,7$ bits.

Análise de Entropia de Expectativa:

Senha A: A estrutura é comum: uma palavra de dicionário ("Summer"), um ano previsível ("2024") e um símbolo de sufixo comum ("!"). Um modelo probabilístico (como uma cadeia de Markov treinada em senhas vazadas) atribuiria uma alta probabilidade a este padrão. Sua classificação na lista ordenada de senhas prováveis seria muito baixa, significando que a probabilidade cumulativa de senhas mais prováveis é alta. Portanto, sua Entropia de Expectativa seria baixa (por exemplo, 0,05-0,2), indicando que um atacante provavelmente a encontraria nos primeiros 5-20% de uma ordem de tentativas otimizada.
Senha B: Parece aleatória, sem padrão óbvio, misturando conjuntos de caracteres por posição. Um modelo probabilístico atribuiria uma probabilidade muito baixa, aproximadamente uniforme, a esta sequência específica. Sua classificação seria muito alta (próxima do meio/fim da lista ordenada). Portanto, sua Entropia de Expectativa seria alta (por exemplo, 0,7-0,95), indicando que um atacante deve pesquisar a maior parte do espaço.

Este exemplo demonstra como a Entropia de Expectativa fornece uma avaliação de risco mais matizada e realista do que a força em bits idêntica da fórmula clássica.

8. Perspectivas de Aplicação & Direções Futuras

Aplicações Imediatas:

Medidores de Força de Senha em Tempo Real: Integrar a Entropia de Expectativa em fluxos de cadastro na web e em aplicativos para fornecer aos usuários um indicador de força intuitivo e baseado em porcentagem.
Aplicação de Políticas de Segurança: Organizações poderiam definir limites mínimos de Entropia de Expectativa (por exemplo, 0,6) em vez de apenas regras de complexidade, vinculando diretamente a política ao esforço estimado de quebra.
Auditorias Automatizadas de Sistemas: Examinar bancos de dados de senhas existentes (com hash) para estimar a distribuição coletiva da Entropia de Expectativa e identificar contas com senhas criticamente fracas.

Direções Futuras de Pesquisa:

Estimadores Robustos de Amostra Única: Desenvolver e comparar métodos estatísticos (por exemplo, usando modelos de linguagem neural, modelos n-gram ou filtros de Bloom) para estimar com precisão a probabilidade/classificação de uma única senha a partir da qual $H_E$ é derivada.
Avaliação Adversarial: Testar a métrica contra ferramentas de quebra de senhas de última geração e modelos de IA (por exemplo, PassGAN, uma adaptação do framework Generative Adversarial Network para senhas) para ver se o esforço previsto corresponde aos tempos reais de quebra.
Além de Senhas: Aplicar o conceito de "fração de esforço" normalizada a outros segredos, como chaves criptográficas (onde bits são padrão) ou modelos biométricos, para criar uma métrica de força unificada entre diferentes fatores de autenticação.
Esforços de Padronização: Propor a Entropia de Expectativa ou seus princípios a órgãos como o NIST para inclusão em revisões futuras de diretrizes de identidade digital (por exemplo, SP 800-63B).

9. Referências

Ministério Federal Alemão de Educação e Pesquisa (BMBF). Detalhes da concessão para o projeto PHY2APP.
M. Dell'Amico, P. Michiardi, Y. Roudier, "Password Strength: An Empirical Analysis," em Proceedings of IEEE INFOCOM, 2010. (Representa pesquisa sobre métodos de força de senha).
National Institute of Standards and Technology (NIST). Entropy Estimation Suite. [Online]. Disponível: https://github.com/usnistgov/entropy-estimation
NIST Special Publication 800-90B. Recommendation for the Entropy Sources Used for Random Bit Generation.
J. Kelsey, K. A. McKay, M. Turan, "Predictive Models for Min-Entropy Estimation," em Proceedings of CHES, 2015.
K. Reaz, G. Wunder, "ComPass: A Protocol for Secure and Usable Wi-Fi Device Provisioning," em Proceedings of ACM WiSec, 2023. (Assumido a partir do contexto).
C. E. Shannon, "A Mathematical Theory of Communication," The Bell System Technical Journal, vol. 27, pp. 379–423, 623–656, 1948.
R. V. L. Hartley, "Transmission of Information," The Bell System Technical Journal, vol. 7, no. 3, pp. 535–563, 1928.
J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," em Proceedings of IEEE Symposium on Security and Privacy, 2012.
J. L. Massey, "Guessing and Entropy," em Proceedings of IEEE International Symposium on Information Theory (ISIT), 1994.
C. Cachin, Entropy Measures and Unconditional Security in Cryptography. Tese de Doutorado, ETH Zurich, 1997.
J. O. Pliam, "The Disparity between Work and Entropy in Cryptology," 1998. [Online]. Disponível: https://eprint.iacr.org/1998/024
B. Hitaj, P. Gasti, G. Ateniese, F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," em Proceedings of ACNS, 2019. (Referência externa para avaliação adversarial de IA).