一种规范的密码强度度量：形式化定义对抗猜测攻击的安全性

1. 引言

本文旨在解决密码安全领域的一个根本性空白：缺乏对“密码强度”的严格定义。文章认为，当前的方法往往是经验性的，未能充分考虑攻击者的策略。作者提出了一种基于潜在猜测攻击效率的规范度量方法，将关注点从密码特征转向攻击特征。

2. 研究现状

文章批评当前密码安全领域的现状“如同中世纪医学般黯淡”，引用了布鲁斯·施奈尔的观察，即许多建议基于轶事而非分析。文章强调，正如近期文献[3]所指出的，目前缺乏一种令人满意的方法来衡量密码数据集的强度。常见的密码强度检测工具被认为是在测量“模仿性”，而非对智能攻击的真正抵抗力。

3. 核心见解与逻辑脉络

核心见解： 密码强度并非一串字符的内在属性；它是一种关系属性，完全由攻击者的猜测策略定义。防御者的目标不是在真空中创建一个“强密码”，而是创建一个在理性对手可能采用的可行攻击策略集合面前表现不佳的密码。

逻辑脉络： 论证过程遵循形式化的精确性：

将猜测攻击定义为一个有序列表（字典）的候选密码。
证明任何两种攻击的区别仅在于此列表的顺序。
得出结论：密码对特定攻击的强度即是其在该攻击字典中的位置。
由于防御者无法确知攻击顺序，他们必须考虑一个可能攻击的集合。
因此，防御者衡量的强度是密码在此攻击集合中位置的期望值。

这彻底改变了思路：安全性被建模为一场博弈，其中防御者需要估计攻击者的策略空间。

4. 优势与局限

优势：

概念严谨性： 首次提供了以攻击为中心的形式化密码强度定义，超越了启发式的经验法则。
博弈论基础： 正确地将密码选择框定为一种策略互动，与安全博弈论等现代安全分析保持一致。
揭露有缺陷的启发式方法： 有效驳斥了那些以合规为导向（例如“必须包含数字和符号”）、却产生可预测模式的策略。

局限与不足：

计算不可行性： 核心度量——计算密码在所有可能攻击中的期望排名——对于大型密码空间在计算上是不可行的。这是一个理论上的理想模型，而非实时强度检测工具的实用工具。
忽略关键现实因素： 该模型假设了一种“无限次尝试的离线猜测”攻击，忽略了速率限制、账户锁定和在线检测系统，这些因素从根本上改变了攻击者的策略。
未提供攻击集合的指导： 本文的关键跨越——定义“可行攻击集合”——并未得到充分说明。防御者如何实际地对此集合进行建模？这正是问题的症结所在。

5. 可操作的见解

对于安全从业者而言，本文要求进行一次范式转变：

停止测量模仿性： 摒弃那些仅检查字符类别的密码强度检测工具。它们训练用户创建的是对检测工具而言强的密码，而非对攻击者而言。
从分布角度思考，而非规则： 与其强制要求符号，不如鼓励用户从高熵的分布中选择密码，这种分布不太可能与常见的攻击字典重合（例如，使用 Diceware 方法或密码管理器）。
为你的对手建模： 对于关键系统，进行威胁建模以定义可能的攻击策略（例如，暴力破解、基于历史泄露数据的字典攻击、针对性的个人信息攻击）。调整密码策略以破坏这些特定策略。
接受不确定性： 承认完美的强度测量是不可能的。目标是增加攻击者的成本和不确定性，而非获得一个完美的分数。

6. 技术框架

6.1 形式化攻击模型

本文将猜测攻击 $A$ 建模为一个有序序列（字典）$D_A = (w_1, w_2, w_3, ...)$，其中 $w_i$ 是来自有限字母表的候选密码。攻击者按此顺序尝试密码直至成功。该攻击是“离线”的，意味着接口提供即时成功/失败反馈且没有限制。

6.2 数学表述

设 $p$ 为一个特定密码。对于给定的攻击 $A$，$p$ 的强度定义为其在 $D_A$ 中的排名： $$S_A(p) = \text{rank}_A(p)$$ 其中，如果 $p = w_i \in D_A$，则 $\text{rank}_A(p) = i$。

由于防御者不知道确切的 $A$，他们考虑一个可能攻击的集合 $\mathcal{A}$。那么，规范的密码强度 $C(p)$ 就是期望排名： $$C(p) = \mathbb{E}_{A \sim \mathcal{A}}[\,S_A(p)\,] = \sum_{A \in \mathcal{A}} P(A) \cdot \text{rank}_A(p)$$ 其中 $P(A)$ 是分配给集合 $\mathcal{A}$ 中攻击 $A$ 的概率（或似然度）。这一表述直接将强度与防御者对攻击者策略的信念联系起来。

7. 实验结果与分析

概念性实验与启示： 虽然本文本身并未呈现软件运行的经验数据，但它通过一个思想实验，逻辑地论证了其模型的必要性。它表明，两个密码“Password123!”和“xQ37!z9pLm”，在一个仅检查长度和字符种类的简单检测工具中可能获得相似的分数。然而，“Password123!”在暴力破解攻击排序中排名会非常靠后（强度高），但在优先考虑常见基础词和模式的字典攻击中排名会极其靠前（强度低）。规范度量 $C(p)$ 通过对两种攻击类型取平均值，将揭示“Password123!”相对于随机字符串的真实弱点。

图表解读（概念性）： 想象一个条形图，比较针对一组样本密码的三种密码评估方法：

方法 A（简单检测工具）： 显示“Password123!”和“xQ37!z9pLm”强度相同。
方法 B（字典攻击排名）： 显示“Password123!”非常弱（排名数字小），“xQ37!z9pLm”很强（排名数字大）。
方法 C（规范度量 $C(p)$）： 显示加权平均值。“Password123!”的分数因其在字典攻击中的高概率而骤降，而随机字符串则保持高分。此图表将直观地论证 $C(p)$ 与现实世界的可破解性相关性更好。

8. 分析框架：案例研究

场景： 某公司的密码策略要求：“至少12个字符，包含大写字母、小写字母、数字和符号。”

传统分析： 像“Summer2024!$”这样的密码符合策略，并在典型检测工具中获得“强”评级。

规范度量分析：

定义攻击集合 $\mathcal{A}$：
- $A_1$：使用常见单词（“Summer”）、季节、年份和常见符号后缀（“!$”）的字典攻击。概率：高（0.7）。
- $A_2$：使用公司名称、员工信息的针对性攻击。对于批量攻击概率：低（0.1）。
- $A_3$：对12字符空间的完全暴力破解。概率：极低（0.001）。
- $A_4$：使用类似公司历史泄露密码的攻击。概率：中（0.199）。
估计排名：
- $\text{rank}_{A1}("Summer2024!$")$：非常靠前（例如，在前1000万内）。
- $\text{rank}_{A2}(p)$：如果是针对性攻击，可能靠前。
- $\text{rank}_{A3}(p)$：非常靠后（约$95^{12}$）。
- $\text{rank}_{A4}(p)$：如果该模式常见，则可能靠前。
计算 $C(p)$： 期望排名主要由高概率的字典攻击 $A_1$ 主导，导致一个低的规范强度分数，从而暴露了该策略的失败。

结论： 该策略创造了一个可预测的分布。规范框架表明，防御需要打破这种可预测性，或许可以通过强制要求随机生成密码或使用已知弱密码阻止列表来实现，这直接修改了 $\mathcal{A}$ 中的概率。

9. 未来应用与方向

自适应密码策略： 系统可以利用规范框架创建动态策略。取代静态规则，后端服务可以根据当前威胁情报（例如，新泄露的字典）估计 $\mathcal{A}$，并拒绝在该更新模型中 $C(p)$ 分数低的密码。
密码管理器集成： 密码管理器是实施此框架的理想工具。它们可以维护一个基于全局泄露数据和启发式规则的本地 $\mathcal{A}$ 模型，并利用它来生成最大化 $C(p)$ 的密码。这将理论模型转化为一种实用、对用户透明的安全增强措施。
形式化安全证明： 该模型为在学术文献中形式化证明密码生成算法的安全属性提供了基础，类似于加密算法的分析方式。
混合威胁模型： 未来的工作必须将规范度量与现实约束（如速率限制）相结合。攻击集合 $\mathcal{A}$ 将不仅包括密码排序，还包括跨时间和账户分配猜测的策略。
用于 $\mathcal{A}$ 的机器学习： 定义攻击集合这一主要开放性问题，可以通过机器学习来解决。系统可以根据实际的破解尝试和泄露密码训练模型，持续学习并更新策略上的概率分布 $P(A)$，从而为攻击者创造一个移动的目标。

10. 参考文献

Panferov, E. (2016). A Canonical Password Strength Measure. arXiv:1505.05090v4 [cs.CR].
Schneier, B. (2007). Schneier on Security. Wiley.
Bonneau, J. (2012). The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords. IEEE Symposium on Security and Privacy.
Shannon, C. E. (1948). A Mathematical Theory of Communication. The Bell System Technical Journal.
Florêncio, D., & Herley, C. (2007). A Large-Scale Study of Web Password Habits. Proceedings of the 16th International Conference on World Wide Web.
Ur, B., et al. (2015). Do Users' Perceptions of Password Security Match Reality? Proceedings of the 2015 CHI Conference on Human Factors in Computing Systems.
NIST Special Publication 800-63B (2017). Digital Identity Guidelines: Authentication and Lifecycle Management.
Wang, D., et al. (2016). The Tangled Web of Password Reuse. NDSS Symposium 2016.