Энтропия ожидания: новая метрика для оценки стойкости паролей

1. Введение и мотивация

В данной работе представлена Энтропия ожидания — новая метрика, предназначенная для оценки стойкости случайных или псевдослучайных паролей. Мотивация исходит из практического пробела в существующих инструментах оценки стойкости паролей. Классические формулы, основанные на комбинаторике (например, $\log_2(\text{размер алфавита}^{\text{длина}})$), выдают результат в десятках бит, в то время как отраслевой стандарт — набор инструментов оценки энтропии NIST — предоставляет нормализованную оценку минимальной энтропии в диапазоне от 0 до 1. Это несоответствие затрудняет прямое сравнение и интуитивную интерпретацию. Энтропия ожидания устраняет этот разрыв, предоставляя оценку стойкости по той же шкале 0-1, что и инструмент NIST, где значение, например, 0.4 означает, что злоумышленник должен перебрать не менее 40% от общего числа возможных вариантов, чтобы найти пароль.

Работа выполнена в рамках проекта «PHY2APP», который фокусируется на генерации стойких симметричных паролей для настройки Wi-Fi устройств (протокол ComPass) с использованием методов безопасности физического уровня, что подчеркивает необходимость в надежной, масштабируемой метрике стойкости.

2. Различные определения энтропии

Энтропия измеряет неупорядоченность, случайность или неопределенность. Различные определения по-разному применимы к стойкости паролей.

2.1 Минимальная энтропия

Определяется как $H_{\infty} = -\log_2(\max(p_i))$, где $p_i$ — вероятность элемента. Она представляет наихудший сценарий, измеряя сложность угадывания наиболее вероятного исхода. Это основа для выходных данных набора инструментов NIST.

2.2 Энтропия Шеннона

Определяется как $H_1 = -\sum_{i=1}^{N} p_i \log_2 p_i$. Она дает усредненную меру информационного содержания, но критикуется за отсутствие связи с фактической сложностью подбора в контексте взлома паролей, поскольку игнорирует длину пароля и оптимальную стратегию атакующего.

2.3 Энтропия Хартли

Определяется как $H_0 = \log_2 N$, она измеряет только размер распределения (размер алфавита), полностью игнорируя вероятности символов.

2.4 Энтропия угадывания

Определяется как $G = \sum_{i=1}^{N} p_i \cdot i$, где варианты угадывания упорядочены по убыванию вероятности. Это измеряет ожидаемое количество попыток, необходимое оптимальному атакующему. Она более непосредственно связана с практическим временем взлома, но не нормализована.

3. Энтропия ожидания

3.1 Определение и формулировка

Энтропия ожидания основана на концепции энтропии угадывания, но нормализована к шкале [0, 1]. Ключевая идея — оценить стойкость на основе состава одного пароля. Она рассматривает непересекающиеся наборы символов: строчные буквы $L$ (|L|=26), прописные буквы $U$ (26), цифры $D$ (10) и символы $S$ (32), образуя общее пространство символов $K$ размером 94 для английского языка.

Хотя полный математический вывод для одного пароля подразумевается, но не полностью раскрыт в предоставленном отрывке, метрика по сути нормализует усилия, требуемые оптимальному атакующему, относительно общего пространства поиска. Если $G$ — энтропия угадывания, а $N$ — общее количество возможных паролей (например, $94^{\text{длина}}$ для полного пространства), то нормализованная форма концептуально может быть связана с $E \approx G / N_{eff}$, где $N_{eff}$ — эффективный размер пространства поиска с учетом состава пароля.

3.2 Интерпретация и шкала

Ключевое нововведение — ее интерпретируемая шкала. Значение Энтропии ожидания $\alpha$ (где $0 \le \alpha \le 1$) означает, что атакующий должен выполнить не менее доли $\alpha$ от общего числа требуемых попыток (в оптимальном порядке), чтобы взломать пароль. Значение 1 указывает на идеальную случайность, когда атакующий должен выполнить полный перебор. Это интуитивно согласуется со шкалой минимальной энтропии NIST, облегчая сравнение и принятие решений для проектировщиков систем.

4. Ключевая идея и взгляд аналитика

Ключевая идея: Реаз и Вундер не просто предлагают еще одну метрику энтропии; они пытаются решить критический пробел в удобстве использования и интерпретируемости в инженерии безопасности. Реальная проблема заключается не в отсутствии мер сложности, а в когнитивном диссонансе, когда инструмент комбинаторики кричит «80 бит!», а NIST шепчет «0.7». Энтропия ожидания — это прагматичный переводчик, преобразующий криптографическую стойкость в действенную, вероятностную оценку риска на единой панели управления.

Логическая цепочка: Аргументация элегантно проста: 1) Существующие метрики живут на разных планетах (биты против нормализованных оценок), вызывая путаницу. 2) Энтропия угадывания ($G$) ближе к реальности атакующего, но не ограничена. 3) Следовательно, нормализовать $G$ относительно эффективного пространства поиска, чтобы создать оценку 0-1, которая напрямую соответствует проценту усилий, требуемых атакующему. Это соединяет теоретическое (минимальная энтропия NIST) и практическое (нагрузка взломщика паролей).

Сильные и слабые стороны: Сила — в элегантной простоте и немедленной интерпретируемости — настоящая находка для политиков и архитекторов систем. Однако дьявол кроется в предположениях о распределении. Точность метрики сильно зависит от правильного моделирования распределения вероятностей $p_i$ символов в рамках одного образца пароля, что является печально известной сложной статистической проблемой. В отличие от набора NIST, который тестирует длинные битовые последовательности, применение этого к короткому 16-символьному паролю требует надежных оценщиков, которые могут быть чувствительны к смещениям. В отрывке статьи этот процесс оценки для одного экземпляра не детализирован полностью, что является ее ахиллесовой пятой.

Практические выводы: Для команд безопасности эту метрику можно интегрировать в API создания паролей или плагины Active Directory для предоставления интуитивной обратной связи о стойкости в реальном времени («Для взлома вашего пароля потребуется 60% попыток»). Для исследователей следующим шагом должно стать строгая, масштабная эмпирическая валидация против реальных инструментов взлома (таких как Hashcat или John the Ripper) для калибровки модели. Означает ли Энтропия ожидания 0.8 действительно 80% пространства поиска? Это требует доказательства против состязательных ИИ-моделей, подобно тому, как GAN используются для атак в других областях безопасности. Концепция перспективна, но ее операционная полезность зависит от прозрачной, рецензируемой валидации за пределами контролируемой среды машинно-сгенерированных паролей.

5. Технические детали и математическая формулировка

Основываясь на изложенных концепциях, Энтропию ожидания $H_E$ для пароля можно концептуально представить. Пусть пароль длины $l$ выбран из алфавита $\mathcal{A}$ с ассоциированным распределением вероятностей для каждой позиции символа (которое может быть оценено на основе самого пароля или референсного корпуса).

Упорядоченный вектор вероятностей: Для всего пространства паролей размером $N = |\mathcal{A}|^l$ можно теоретически упорядочить все возможные пароли по убыванию вероятности их выбора (в соответствии с генеративной моделью).
Энтропия угадывания: Ожидаемое количество попыток для оптимального атакующего составляет $G = \sum_{i=1}^{N} p_i \cdot i$, где $p_i$ — вероятность $i$-го наиболее вероятного пароля.
Нормализация: Максимально возможное $G$ для равномерного распределения равно $(N+1)/2$. Нормализованная мера усилий может быть определена как: $$ H_E \approx \frac{2 \cdot G - 1}{N} $$ Это отображало бы равномерное распределение (идеальная случайность) на $H_E \to 1$ при увеличении $N$ и высокопредсказуемый пароль (где $G$ мало) на значение, близкое к 0.
Практическая оценка: Для одного пароля необходимо оценить его «ранг» или кумулятивную вероятность всех паролей, более вероятных, чем он. Если кумулятивная вероятностная масса паролей до его ранга составляет $\alpha$, то $H_E \approx 1 - \alpha$. Это согласуется с описанием в статье, что значение 0.4 означает поиск 40% пространства.

Точный, эффективный алгоритм оценки этого по одному образцу является ключевым техническим вкладом, подразумеваемым авторами.

6. Экспериментальные результаты и описание графиков

Примечание: Предоставленный отрывок PDF не содержит конкретных экспериментальных результатов или графиков. Ниже приведено описание, основанное на том, что обычно включает валидационное исследование для такой метрики.

Всесторонняя оценка Энтропии ожидания, вероятно, включала бы следующие графики:

График 1: Точечная диаграмма сравнения метрик. На этом графике пароли отображаются по двум осям: по оси X — классическая битовая стойкость (например, $\log_2(94^l)$), по оси Y — Энтропия ожидания (0-1). Облако точек выявило бы корреляцию (или ее отсутствие) между двумя мерами, выделяя пароли, которые длинные (высокая битовая стойкость), но предсказуемые (низкая Энтропия ожидания).
График 2: Кривая устойчивости к взлому. На нем показана фактическая доля пространства поиска, которую атакующий (использующий инструмент вроде Hashcat с атакой на основе правил) должен пройти, чтобы взломать пароли, сгруппированные по их оценке Энтропии ожидания (например, 0.0-0.1, 0.1-0.2...). Идеальная метрика показала бы идеальную диагональную линию, где предсказанные усилия (Энтропия) равны фактическим. Отклонение от диагонали указывает на ошибку оценки.
График 3: Распределение оценок. Гистограмма, показывающая оценки Энтропии ожидания для разных типов паролей: сгенерированных машиной (например, по протоколу ComPass), созданных человеком с правилами и созданных человеком без правил. Это наглядно продемонстрировало бы способность метрики различать методы генерации паролей.

Ключевой результат для валидации — утверждение: «Наличие Энтропии ожидания определенного значения, например, 0.4, означает, что атакующий должен перебрать не менее 40% от общего числа попыток». Это требует эмпирического моделирования атак.

7. Аналитическая структура: пример

Сценарий: Оценка двух 12-символьных паролей для системы, использующей пространство из 94 печатаемых символов ASCII.

Пароль A (выбранный человеком): Summer2024!
Пароль B (сгенерированный машиной): k9$Lp@2W#r1Z

Классическая битовая стойкость: Оба имеют одинаковый теоретический максимум: $\log_2(94^{12}) \approx 78.7$ бит.

Анализ Энтропии ожидания:

Пароль A: Структура распространенная: словарное слово («Summer»), предсказуемый год («2024») и распространенный суффикс-символ («!»). Вероятностная модель (например, цепь Маркова, обученная на утекших паролях) присвоила бы высокую вероятность этому шаблону. Его ранг в упорядоченном списке вероятных паролей был бы очень низким, то есть кумулятивная вероятность более вероятных паролей высока. Следовательно, его Энтропия ожидания была бы низкой (например, 0.05-0.2), что указывает на то, что атакующий, вероятно, найдет его в первых 5-20% оптимизированного порядка подбора.
Пароль B: Он кажется случайным, без очевидного шаблона, с перемешиванием наборов символов в каждой позиции. Вероятностная модель присвоила бы очень низкую, примерно равномерную вероятность этой конкретной последовательности. Его ранг был бы очень высоким (близко к середине/концу упорядоченного списка). Следовательно, его Энтропия ожидания была бы высокой (например, 0.7-0.95), что указывает на то, что атакующий должен перебрать большую часть пространства.

Этот пример демонстрирует, как Энтропия ожидания обеспечивает более тонкую и реалистичную оценку риска по сравнению с идентичной битовой стойкостью из классической формулы.

8. Перспективы применения и направления развития

Непосредственные применения:

Индикаторы стойкости пароля в реальном времени: Интеграция Энтропии ожидания в процессы регистрации на веб-сайтах и в приложениях для предоставления пользователям интуитивного индикатора стойкости в процентах.
Обеспечение политик безопасности: Организации могли бы устанавливать минимальные пороги Энтропии ожидания (например, 0.6) вместо правил сложности, напрямую связывая политику с оценкой усилий по взлому.
Автоматизированные аудиты систем: Сканирование существующих баз данных паролей (хэшированных) для оценки коллективного распределения Энтропии ожидания и выявления учетных записей с критически слабыми паролями.

Направления будущих исследований:

Надежные оценщики по одному образцу: Разработка и сравнение статистических методов (например, с использованием нейросетевых языковых моделей, n-граммных моделей или фильтров Блума) для точной оценки вероятности/ранга одного пароля, из которого выводится $H_E$.
Состязательная оценка: Тестирование метрики против современных инструментов взлома паролей и ИИ-моделей (например, PassGAN, адаптации фреймворка Generative Adversarial Network для паролей), чтобы проверить, соответствуют ли предсказанные усилия фактическому времени взлома.
За пределами паролей: Применение концепции нормализованной «доли усилий» к другим секретам, таким как криптографические ключи (где стандартны биты) или биометрические шаблоны, для создания единой метрики стойкости для различных факторов аутентификации.
Усилия по стандартизации: Предложение Энтропии ожидания или ее принципов организациям, таким как NIST, для включения в будущие редакции руководств по цифровой идентичности (например, SP 800-63B).

9. Ссылки

Федеральное министерство образования и научных исследований Германии (BMBF). Детали гранта для проекта PHY2APP.
M. Dell'Amico, P. Michiardi, Y. Roudier, "Password Strength: An Empirical Analysis," в Proceedings of IEEE INFOCOM, 2010. (Представляет обзор методов оценки стойкости паролей).
Национальный институт стандартов и технологий (NIST). Entropy Estimation Suite. [Онлайн]. Доступно: https://github.com/usnistgov/entropy-estimation
NIST Special Publication 800-90B. Recommendation for the Entropy Sources Used for Random Bit Generation.
J. Kelsey, K. A. McKay, M. Turan, "Predictive Models for Min-Entropy Estimation," в Proceedings of CHES, 2015.
K. Reaz, G. Wunder, "ComPass: A Protocol for Secure and Usable Wi-Fi Device Provisioning," в Proceedings of ACM WiSec, 2023. (Предполагается из контекста).
C. E. Shannon, "A Mathematical Theory of Communication," The Bell System Technical Journal, vol. 27, pp. 379–423, 623–656, 1948.
R. V. L. Hartley, "Transmission of Information," The Bell System Technical Journal, vol. 7, no. 3, pp. 535–563, 1928.
J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," в Proceedings of IEEE Symposium on Security and Privacy, 2012.
J. L. Massey, "Guessing and Entropy," в Proceedings of IEEE International Symposium on Information Theory (ISIT), 1994.
C. Cachin, Entropy Measures and Unconditional Security in Cryptography. PhD Thesis, ETH Zurich, 1997.
J. O. Pliam, "The Disparity between Work and Entropy in Cryptology," 1998. [Онлайн]. Доступно: https://eprint.iacr.org/1998/024
B. Hitaj, P. Gasti, G. Ateniese, F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," в Proceedings of ACNS, 2019. (Внешняя ссылка для состязательной ИИ-оценки).