正規のパスワード強度測定基準：推測攻撃に対するセキュリティの形式化

1. 序論

本論文は、パスワードセキュリティに関する議論における根本的なギャップ、すなわち「パスワード強度」の厳密な定義の欠如に取り組む。現在のアプローチはしばしば経験則的であり、攻撃者の戦略を考慮に入れていないと論じる。著者らは、潜在的な推測攻撃の効率に基づく正規の測定基準を提案し、焦点をパスワードの特性から攻撃の特性へと移行させる。

2. 最新技術動向

本論文は、パスワードセキュリティの現状を「中世の医学のように厳しい」と批判し、ブルース・シュナイアーの指摘通り、多くの助言が分析ではなく経験則に基づいていると述べる。また、最近の文献[3]で指摘されているように、パスワードデータセットの強度を測定する満足のいく方法が欠如していることを強調する。一般的なパスワード強度計は、知的な攻撃に対する真の耐性ではなく、「模倣」を測定しているに過ぎないと退けられる。

3. 中核的洞察と論理的展開

中核的洞察： パスワード強度は、文字列の本質的な特性ではない。それは、攻撃者の推測戦略によって完全に定義される関係的特性である。防御者の目標は、真空の中で「強いパスワード」を作成することではなく、合理的な敵対者が採用する可能性のある実行可能な攻撃戦略の集合に対して性能が低いパスワードを作成することである。

論理的展開： 議論は形式的な精度で進む：

推測攻撃を、候補パスワードの順序付きリスト（辞書）として定義する。
任意の2つの攻撃は、このリストの順序のみが異なることを証明する。
特定の攻撃に対するパスワードの強度は、その攻撃の辞書におけるそのパスワードの位置であると結論付ける。
防御者は正確な攻撃順序を知ることができないため、もっともらしい攻撃の集合を考慮しなければならない。
したがって、防御者の強度の測定基準は、この攻撃集合全体におけるパスワード位置の期待値となる。

これは視点を逆転させる：セキュリティは、防御者が攻撃者の戦略空間を推定するゲームとしてモデル化される。

4. 長所と欠点

長所：

概念的厳密性： 経験則的なルールを超えて、攻撃中心のパスワード強度の初めての形式的定義を提供する。
ゲーム理論的基盤： パスワード選択を戦略的相互作用として正しく位置づけ、セキュリティのためのゲーム理論研究に見られるような現代のセキュリティ分析と整合する。
欠陥のある経験則の暴露： 予測可能なパターンを生み出す、コンプライアンス重視のポリシー（例：「数字と記号を含むこと」）を効果的に論破する。

欠点と限界：

計算上の困難性： 中核となる指標——すべてのもっともらしい攻撃にわたる期待順位の計算——は、大規模なパスワード空間では計算上実行不可能である。これは理論的な理想であり、リアルタイムの強度計測ツールとしての実用的なツールではない。
重要な現実の省略： このモデルは、試行回数に制限のない「オフライン推測」攻撃を仮定しており、レート制限、アカウントロックアウト、オンライン検知システムなど、攻撃者の戦略を根本的に変える要素を無視している。
攻撃集合に関する指針の欠如： 本論文の決定的な飛躍——「実行可能な攻撃の集合」の定義——は十分に具体化されていない。防御者は実際にこの集合をどのようにモデル化するのか？これが問題の核心である。

5. 実践的示唆

セキュリティ実務家にとって、本論文はパラダイムシフトを要求する：

模倣の測定をやめる： 文字種のみをチェックするパスワード強度計を廃止する。それらはユーザーに、攻撃者に対してではなく、強度計に対して強いパスワードを作成するよう訓練させる。
ルールではなく分布で考える： 記号の使用を義務付ける代わりに、ユーザーに一般的な攻撃辞書と一致しにくい高エントロピーの分布からパスワードを選択するよう奨励する（例：ダイスウェアやパスワードマネージャーの使用）。
敵対者をモデル化する： 重要なシステムでは、脅威モデリングを実施して、もっともらしい攻撃戦略（例：ブルートフォース、過去の侵害に基づく辞書、ターゲットとなる個人情報）を定義する。パスワードポリシーを、それらの特定の戦略を妨害するように調整する。
不確実性を受け入れる： 完全な強度測定は不可能であることを認める。目標は、完璧なスコアを達成することではなく、攻撃者に対するコストと不確実性を増大させることである。

6. 技術的枠組み

6.1 形式的攻撃モデル

本論文は、推測攻撃 $A$ を、候補パスワードの順序付き列（辞書） $D_A = (w_1, w_2, w_3, ...)$ としてモデル化する。ここで $w_i$ は有限アルファベットからの単語である。攻撃者はこの順序でパスワードを試行し、成功するまで続ける。攻撃は「オフライン」であり、インターフェースは制限なく即座に成功/失敗のフィードバックを提供することを意味する。

6.2 数学的定式化

特定のパスワードを $p$ とする。与えられた攻撃 $A$ に対して、$p$ の強度は $D_A$ におけるその順位として定義される： $$S_A(p) = \text{rank}_A(p)$$ ここで、$p = w_i \in D_A$ ならば $\text{rank}_A(p) = i$ である。

防御者は正確な $A$ を知らないため、可能な攻撃の集合 $\mathcal{A}$ を考慮する。すると、正規のパスワード強度 $C(p)$ は期待順位となる： $$C(p) = \mathbb{E}_{A \sim \mathcal{A}}[\,S_A(p)\,] = \sum_{A \in \mathcal{A}} P(A) \cdot \text{rank}_A(p)$$ ここで $P(A)$ は、集合 $\mathcal{A}$ からの攻撃 $A$ に割り当てられる確率（または尤度）である。この定式化は、強度を防御者の攻撃者戦略に関する信念に直接結びつける。

7. 実験結果と分析

概念的実験と含意： 本論文自体はソフトウェア実行からの実証データを提示していないが、思考実験を通じてそのモデルの必要性を論理的に実証している。長さと文字の種類をチェックする単純な強度計では、「Password123!」と「xQ37!z9pLm」という2つのパスワードが同様のスコアを受ける可能性があることを示す。しかし、「Password123!」は、ブルートフォース攻撃の順序付けでは非常に低い順位（高い強度）を持つが、一般的な基本語とパターンを優先する辞書攻撃では極めて高い順位（低い強度）を持つ。正規の測定基準 $C(p)$ は、両方の攻撃タイプにわたって平均を取ることにより、「Password123!」のランダムな文字列に対する真の弱点を明らかにするだろう。

チャート解釈（概念的）： サンプルパスワードに対する3つのパスワード評価方法を比較する棒グラフを想像されたい：

方法A（単純な強度計）： 「Password123!」と「xQ37!z9pLm」を同等に強いと示す。
方法B（辞書攻撃順位）： 「Password123!」を非常に弱く（順位番号が低い）、「xQ37!z9pLm」を強い（順位番号が高い）と示す。
方法C（正規測定基準 $C(p)$）： 加重平均を示す。「Password123!」のスコアは辞書攻撃での高い確率により急落し、ランダム文字列は高いスコアを維持する。このチャートは、$C(p)$ が実世界でのクラック可能性とより良く相関することを視覚的に主張するだろう。

8. 分析フレームワーク：事例研究

シナリオ： ある企業のパスワードポリシーは以下を要求する：「少なくとも12文字、大文字、小文字、数字、記号を含むこと。」

従来の分析： 「Summer2024!$」のようなパスワードはポリシーを通過し、一般的な強度計から「強い」評価を得る。

正規測定基準による分析：

攻撃集合 $\mathcal{A}$ を定義する：
- $A_1$: 一般的な単語（「Summer」）、季節、年、一般的な記号接尾辞（「!$」）を使用した辞書攻撃。確率：高い（0.7）。
- $A_2$: 会社名、従業員情報を使用した標的型攻撃。確率：一括攻撃では低い（0.1）。
- $A_3$: 12文字空間に対する完全なブルートフォース。確率：極めて低い（0.001）。
- $A_4$: 類似企業の過去の侵害からのパスワードを使用した攻撃。確率：中程度（0.199）。
順位を推定する：
- $\text{rank}_{A1}("Summer2024!$")$: 非常に低い（例：上位1000万以内）。
- $\text{rank}_{A2}(p)$: 標的とされた場合、低くなる可能性がある。
- $\text{rank}_{A3}(p)$: 非常に高い（~$95^{12}$）。
- $\text{rank}_{A4}(p)$: パターンが一般的であれば、潜在的に低い。
$C(p)$ を計算する： 期待順位は、高確率の辞書攻撃 $A_1$ によって支配され、結果として低い正規強度スコアとなり、ポリシーの失敗を暴露する。

結論： このポリシーは予測可能な分布を作り出す。正規の枠組みは、防御にはこの予測可能性を破ることが必要であることを示しており、おそらくランダム生成パスワードの義務付けや、既知の弱いパスワードのブロックリストの使用によって、$\mathcal{A}$ 内の確率を直接修正することが求められる。

9. 将来の応用と方向性

適応型パスワードポリシー： システムは正規の枠組みを使用して動的なポリシーを作成できる可能性がある。静的なルールの代わりに、バックエンドサービスが現在の脅威インテリジェンス（例：新たに流出した辞書）に基づいて $\mathcal{A}$ を推定し、更新されたモデルに対して $C(p)$ スコアが低いパスワードを拒否できる。
パスワードマネージャー統合： パスワードマネージャーはこれを実装するのに理想的である。それらは $\mathcal{A}$ のローカルモデル（グローバルな侵害データと経験則に基づく）を維持し、それを使用して $C(p)$ を最大化するパスワードを生成できる。これにより、理論的モデルが実用的でユーザーに透過的なセキュリティ強化に変わる。
形式的セキュリティ証明： このモデルは、暗号化アルゴリズムが分析されるのと同様に、学術文献においてパスワード生成アルゴリズムのセキュリティ特性を形式的に証明するための基盤を提供する。
ハイブリッド脅威モデル： 将来の研究は、正規の測定基準をレート制限のような実世界の制約と統合しなければならない。その場合、攻撃集合 $\mathcal{A}$ には、パスワードの順序付けだけでなく、時間とアカウントにわたって推測を分散させる戦略も含まれることになる。
$\mathcal{A}$ のための機械学習： 主要な未解決問題——攻撃集合の定義——は、MLで対処できる可能性がある。システムは、実際のクラッキング試行と流出パスワードに基づいてモデルを訓練し、戦略にわたる確率分布 $P(A)$ を継続的に学習・更新することで、攻撃者にとっての移動目標を作り出せる。

10. 参考文献

Panferov, E. (2016). A Canonical Password Strength Measure. arXiv:1505.05090v4 [cs.CR].
Schneier, B. (2007). Schneier on Security. Wiley.
Bonneau, J. (2012). The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords. IEEE Symposium on Security and Privacy.
Shannon, C. E. (1948). A Mathematical Theory of Communication. The Bell System Technical Journal.
Florêncio, D., & Herley, C. (2007). A Large-Scale Study of Web Password Habits. Proceedings of the 16th International Conference on World Wide Web.
Ur, B., et al. (2015). Do Users' Perceptions of Password Security Match Reality? Proceedings of the 2015 CHI Conference on Human Factors in Computing Systems.
NIST Special Publication 800-63B (2017). Digital Identity Guidelines: Authentication and Lifecycle Management.
Wang, D., et al. (2016). The Tangled Web of Password Reuse. NDSS Symposium 2016.