آنتروپی انتظار: یک معیار نوین برای ارزیابی استحکام رمز عبور

1. مقدمه و انگیزه

این مقاله آنتروپی انتظار را معرفی می‌کند، یک معیار نوین که برای تخمین استحکام رمزهای عبور تصادفی یا شبه‌تصادفی طراحی شده است. انگیزه از شکاف عملی در ابزارهای موجود ارزیابی استحکام رمز عبور نشأت می‌گیرد. فرمول‌های کلاسیک مبتنی بر ترکیبیات (مانند $\log_2(\text{فضای کاراکتر}^{\text{طول}})$) نتایجی در ده‌ها بیت ارائه می‌دهند، در حالی که مجموعه استاندارد صنعتی تخمین آنتروپی NIST یک امتیاز مینیمم آنتروپی نرمال‌شده بین ۰ و ۱ ارائه می‌دهد. این ناهماهنگی، مقایسه مستقیم و تفسیر شهودی را دشوار می‌سازد. آنتروپی انتظار این شکاف را با ارائه یک تخمین استحکام در همان مقیاس ۰-۱ ابزار NIST پر می‌کند، جایی که مقداری مانند ۰.۴ نشان می‌دهد که مهاجم باید حداقل ۴۰٪ از کل حدس‌های ممکن را به صورت جامع جستجو کند تا رمز عبور را بیابد.

این کار در چارچوب پروژه "PHY2APP" قرار می‌گیرد که بر تولید رمزهای عبور متقارن قوی برای تأمین دستگاه‌های Wi-Fi (پروتکل ComPass) با استفاده از روش‌های امنیت لایه فیزیکی تمرکز دارد و نیاز به یک معیار استحکام قوی و مقیاس‌پذیر را برجسته می‌سازد.

2. تعاریف مختلف آنتروپی

آنتروپی بی‌نظمی، تصادفی بودن یا عدم قطعیت را اندازه‌گیری می‌کند. تعاریف مختلف به طور متفاوتی بر استحکام رمز عبور اعمال می‌شوند.

2.1 مینیمم آنتروپی

به صورت $H_{\infty} = -\log_2(\max(p_i))$ تعریف می‌شود، که در آن $p_i$ احتمال یک عنصر است. این معیار بدترین حالت ممکن را نشان می‌دهد و دشواری حدس زدن محتمل‌ترین نتیجه را اندازه‌گیری می‌کند. این اساس خروجی مجموعه NIST است.

2.2 آنتروپی شانون

به صورت $H_1 = -\sum_{i=1}^{N} p_i \log_2 p_i$ تعریف می‌شود. این معیار یک اندازه‌گیری متوسط از محتوای اطلاعات ارائه می‌دهد اما به دلیل بی‌ارتباط بودن با دشواری واقعی حدس زدن در زمینه‌های شکستن رمز عبور مورد انتقاد قرار گرفته است، زیرا طول رمز عبور و استراتژی بهینه مهاجم را نادیده می‌گیرد.

2.3 آنتروپی هارتلی

به صورت $H_0 = \log_2 N$ تعریف می‌شود و تنها اندازه توزیع (اندازه الفبا) را اندازه‌گیری می‌کند و به طور کامل احتمالات کاراکترها را نادیده می‌گیرد.

2.4 آنتروپی حدس

به صورت $G = \sum_{i=1}^{N} p_i \cdot i$ تعریف می‌شود، که در آن حدس‌ها بر اساس کاهش احتمال مرتب شده‌اند. این معیار تعداد مورد انتظار حدس‌های مورد نیاز یک مهاجم بهینه را اندازه‌گیری می‌کند. این معیار به طور مستقیم‌تری به زمان عملی شکستن مرتبط است اما نرمال‌شده نیست.

3. آنتروپی انتظار

3.1 تعریف و فرمول‌بندی

آنتروپی انتظار بر اساس مفهوم آنتروپی حدس ساخته شده اما به مقیاس [۰, ۱] نرمال‌شده است. ایده اصلی تخمین استحکام از ترکیب یک رمز عبور منفرد است. این معیار مجموعه‌های کاراکتر مجزا را در نظر می‌گیرد: حروف کوچک $L$ (|L|=26)، حروف بزرگ $U$ (26)، ارقام $D$ (10) و نمادها $S$ (32)، که یک فضای کاراکتر کل $K$ به اندازه ۹۴ برای انگلیسی تشکیل می‌دهند.

در حالی که استنتاج ریاضی کامل برای یک رمز عبور منفرد در متن ارائه شده ضمنی است اما به طور کامل صریح نیست، این معیار اساساً تلاش مورد نیاز یک مهاجم بهینه را نسبت به فضای جستجوی کل نرمال می‌کند. اگر $G$ آنتروپی حدس باشد و $N$ تعداد کل رمزهای عبور ممکن باشد (مثلاً $94^{\text{طول}}$ برای فضای کامل)، یک فرم نرمال‌شده می‌تواند به طور مفهومی به $E \approx G / N_{eff}$ مرتبط باشد، که در آن $N_{eff}$ اندازه یک فضای جستجوی مؤثر با در نظر گرفتن ترکیب رمز عبور است.

3.2 تفسیر و مقیاس

نوآوری کلیدی مقیاس قابل تفسیر آن است. یک مقدار آنتروپی انتظار $\alpha$ (که $0 \le \alpha \le 1$) به این معنی است که مهاجم باید حداقل کسری به اندازه $\alpha$ از کل حدس‌های مورد نیاز (در یک ترتیب بهینه) را برای شکستن رمز عبور انجام دهد. مقدار ۱ نشان‌دهنده تصادفی بودن ایده‌آل است که در آن مهاجم باید یک جستجوی جامع کامل انجام دهد. این به طور شهودی با مقیاس مینیمم آنتروپی NIST همسو است و مقایسه و تصمیم‌گیری را برای طراحان سیستم تسهیل می‌کند.

4. بینش اصلی و دیدگاه تحلیلی

بینش اصلی: رض و ووندر صرفاً یک معیار آنتروپی دیگر را پیشنهاد نمی‌دهند؛ آنها در تلاش برای حل یک شکاف حیاتی قابلیت استفاده و تفسیرپذیری در مهندسی امنیت هستند. مشکل واقعی کمبود معیارهای پیچیدگی نیست، بلکه اصطکاک شناختی است وقتی یک ابزار ترکیبیات فریاد می‌زند "۸۰ بیت!" و NIST زمزمه می‌کند "۰.۷". آنتروپی انتظار یک مترجم عمل‌گرا است که استحکام رمزنگاری را به یک امتیاز ریسک احتمالی قابل اقدام در یک داشبورد یکپارچه تبدیل می‌کند.

جریان منطقی: استدلال به زیبایی ساده است: ۱) معیارهای موجود در سیارات مختلف زندگی می‌کنند (بیت در مقابل امتیازهای نرمال‌شده)، که باعث سردرگمی می‌شود. ۲) آنتروپی حدس ($G$) به واقعیت مهاجم نزدیک‌تر است اما محدود نیست. ۳) بنابراین، $G$ را نسبت به فضای جستجوی مؤثر نرمال کنید تا یک امتیاز ۰-۱ ایجاد شود که مستقیماً به درصد تلاش مورد نیاز مهاجم نگاشت می‌شود. این پلی بین نظری (مینیمم آنتروپی NIST) و عملی (بار کاری شکست‌دهنده رمز عبور) ایجاد می‌کند.

نقاط قوت و ضعف: نقطه قوت آن سادگی ظریف و تفسیرپذیری فوری آن است—یک موهبت برای سیاست‌گذاران و معماران سیستم. با این حال، شیطان در فرضیات توزیعی نهفته است. دقت این معیار به شدت به مدل‌سازی صحیح توزیع احتمال $p_i$ کاراکترها درون یک نمونه رمز عبور منفرد بستگی دارد، که یک مسئله آماری به‌طور بدنامی دشوار است. برخلاف مجموعه NIST که جریان‌های بیتی طولانی را آزمایش می‌کند، اعمال این معیار به یک رمز عبور کوتاه ۱۶ کاراکتری نیازمند تخمین‌زننده‌های قوی است که ممکن است به سوگیری‌ها حساس باشند. مقاله، از روی متن ارائه شده، این فرآیند تخمین برای یک نمونه منفرد را به طور کامل تشریح نمی‌کند، که نقطه ضعف آن است.

بینش‌های قابل اقدام: برای تیم‌های امنیتی، این معیار می‌تواند در APIهای ایجاد رمز عبور یا افزونه‌های Active Directory ادغام شود تا بازخورد استحکام شهودی و بلادرنگ ارائه دهد ("رمز عبور شما نیازمند ۶۰٪ از حدس‌ها برای شکستن است"). برای محققان، گام بعدی باید یک اعتبارسنجی تجربی دقیق و در مقیاس بزرگ در برابر ابزارهای شکستن دنیای واقعی (مانند Hashcat یا John the Ripper) برای کالیبره کردن مدل باشد. آیا یک آنتروپی انتظار ۰.۸ واقعاً به معنای ۸۰٪ فضای جستجو است؟ این نیاز به اثبات در برابر مدل‌های هوش مصنوعی خصمانه دارد، مشابه نحوه استفاده از GANها برای حمله به سایر حوزه‌های امنیتی. این مفهوم امیدوارکننده است، اما کاربرد عملیاتی آن به اعتبارسنجی شفاف و مورد بررسی همتایان فراتر از محیط کنترل‌شده رمزهای عبور تولیدشده توسط ماشین وابسته است.

5. جزئیات فنی و فرمول‌بندی ریاضی

بر اساس مفاهیم ترسیم شده، آنتروپی انتظار $H_E$ برای یک رمز عبور را می‌توان به صورت مفهومی قالب‌بندی کرد. فرض کنید یک رمز عبور به طول $l$ از یک الفبای $\mathcal{A}$ با یک توزیع احتمال مرتبط برای هر موقعیت کاراکتر (که ممکن است از خود رمز عبور یا یک پیکره مرجع تخمین زده شود) انتخاب شده است.

بردار احتمال مرتب‌شده: برای کل فضای رمز عبور به اندازه $N = |\mathcal{A}|^l$، می‌توان به طور نظری تمام رمزهای عبور ممکن را بر اساس احتمال نزولی انتخاب شدن (مطابق مدل تولیدی) مرتب کرد.
آنتروپی حدس: تعداد مورد انتظار حدس‌ها برای یک مهاجم بهینه $G = \sum_{i=1}^{N} p_i \cdot i$ است، که در آن $p_i$ احتمال محتمل‌ترین رمز عبور $i$-ام است.
نرمال‌سازی: حداکثر $G$ ممکن برای یک توزیع یکنواخت $(N+1)/2$ است. یک معیار نرمال‌شده تلاش را می‌توان به صورت زیر تعریف کرد: $$ H_E \approx \frac{2 \cdot G - 1}{N} $$ این یک توزیع یکنواخت (تصادفی بودن کامل) را به $H_E \to 1$ با بزرگ شدن $N$، و یک رمز عبور بسیار قابل پیش‌بینی (جایی که $G$ کوچک است) را به مقداری نزدیک به ۰ نگاشت می‌کند.
تخمین عملی: برای یک رمز عبور منفرد، باید "رتبه" آن یا احتمال تجمعی تمام رمزهای عبور محتمل‌تر از آن را تخمین زد. اگر جرم احتمال تجمعی یک رمز عبور تا رتبه آن $\alpha$ باشد، آنگاه $H_E \approx 1 - \alpha$. این با توصیف مقاله که یک مقدار ۰.۴ به معنای جستجوی ۴۰٪ فضاست، همسو است.

الگوریتم دقیق و کارآمد برای تخمین این مقدار از یک نمونه منفرد، مشارکت فنی اصلی است که توسط نویسندگان مورد اشاره قرار گرفته است.

6. نتایج آزمایشی و توصیف نمودار

توجه: متن PDF ارائه شده حاوی نتایج آزمایشی یا نمودارهای خاصی نیست. موارد زیر توصیفی است بر اساس آنچه یک مطالعه اعتبارسنجی معمول برای چنین معیاری شامل می‌شود.

یک ارزیابی جامع از آنتروپی انتظار احتمالاً شامل نمودارهای زیر خواهد بود:

نمودار ۱: نمودار پراکندگی مقایسه معیارها. این نمودار رمزهای عبور را بر روی دو محور ترسیم می‌کند: محور X نشان‌دهنده استحکام بیتی کلاسیک (مثلاً $\log_2(94^l)$)، و محور Y نشان‌دهنده آنتروپی انتظار (۰-۱). یک ابر از نقاط همبستگی (یا عدم آن) بین دو معیار را آشکار می‌کند و رمزهای عبوری را برجسته می‌کند که طولانی هستند (استحکام بیتی بالا) اما قابل پیش‌بینی (آنتروپی انتظار پایین).
نمودار ۲: منحنی مقاومت در برابر شکست. این نمودار کسر واقعی فضای جستجویی را نشان می‌دهد که یک مهاجم (با استفاده از ابزاری مانند Hashcat با یک حمله مبتنی بر قاعده) باید برای شکستن رمزهای عبور دسته‌بندی شده بر اساس امتیاز آنتروپی انتظارشان (مثلاً ۰.۰-۰.۱, ۰.۱-۰.۲...) طی کند. یک معیار ایده‌آل یک خط مورب کامل را نشان می‌دهد که در آن تلاش پیش‌بینی شده (آنتروپی) برابر با تلاش واقعی است. انحراف از خط مورب نشان‌دهنده خطای تخمین است.
نمودار ۳: توزیع امتیازها. یک هیستوگرام که امتیازهای آنتروپی انتظار را برای انواع مختلف رمز عبور نشان می‌دهد: تولیدشده توسط ماشین (مثلاً از پروتکل ComPass)، تولیدشده توسط انسان با قواعد، و تولیدشده توسط انسان بدون قواعد. این به صورت بصری توانایی معیار را در تمایز بین روش‌های تولید رمز عبور نشان می‌دهد.

نتیجه کلیدی برای اعتبارسنجی این ادعاست: "داشتن یک آنتروپی انتظار با مقدار مشخص، برای مثال ۰.۴ به این معنی است که مهاجم باید حداقل ۴۰٪ از کل تعداد حدس‌ها را به صورت جامع جستجو کند." این نیاز به شبیه‌سازی‌های حمله تجربی دارد.

7. چارچوب تحلیل: یک مثال موردی

سناریو: ارزیابی دو رمز عبور ۱۲ کاراکتری برای یک سیستم با استفاده از فضای ASCII قابل چاپ ۹۴ کاراکتری.

رمز عبور A (انتخاب شده توسط انسان): Summer2024!
رمز عبور B (تولید شده توسط ماشین): k9$Lp@2W#r1Z

استحکام بیتی کلاسیک: هر دو حداکثر نظری یکسانی دارند: $\log_2(94^{12}) \approx 78.7$ بیت.

تحلیل آنتروپی انتظار:

رمز عبور A: ساختار آن رایج است: یک کلمه فرهنگ لغت ("Summer")، یک سال قابل پیش‌بینی ("2024")، و یک نماد پسوند رایج ("!"). یک مدل احتمالی (مانند زنجیره مارکوف آموزش دیده بر روی رمزهای عبور لو رفته) احتمال بالایی را به این الگو اختصاص می‌دهد. رتبه آن در لیست مرتب شده رمزهای عبور محتمل بسیار پایین خواهد بود، به این معنی که احتمال تجمعی رمزهای عبور محتمل‌تر بالا است. بنابراین، آنتروپی انتظار آن پایین خواهد بود (مثلاً ۰.۰۵-۰.۲)، که نشان می‌دهد مهاجم به احتمال زیاد آن را در اولین ۵-۲۰٪ از یک ترتیب حدس بهینه پیدا می‌کند.
رمز عبور B: به نظر تصادفی می‌رسد، بدون الگوی آشکار، و مجموعه‌های کاراکتر را در هر موقعیت مخلوط می‌کند. یک مدل احتمالی احتمال بسیار پایین و تقریباً یکنواختی را به این دنباله خاص اختصاص می‌دهد. رتبه آن بسیار بالا خواهد بود (نزدیک به وسط/انتهای لیست مرتب شده). بنابراین، آنتروپی انتظار آن بالا خواهد بود (مثلاً ۰.۷-۰.۹۵)، که نشان می‌دهد مهاجم باید بیشتر فضای جستجو را بررسی کند.

این مثال نشان می‌دهد که چگونه آنتروپی انتظار یک ارزیابی ریسک ظریف‌تر و واقع‌بینانه‌تر نسبت به استحکام بیتی یکسان از فرمول کلاسیک ارائه می‌دهد.

8. چشم‌انداز کاربرد و جهت‌گیری‌های آینده

کاربردهای فوری:

اندازه‌گیرهای استحکام رمز عبور بلادرنگ: ادغام آنتروپی انتظار در جریان‌های ثبت‌نام وب و برنامه‌ها برای ارائه یک نشانگر استحکام شهودی و مبتنی بر درصد به کاربران.
اجرای سیاست امنیتی: سازمان‌ها می‌توانند حداقل آستانه‌های آنتروپی انتظار (مثلاً ۰.۶) را به جای فقط قواعد پیچیدگی تعیین کنند و مستقیماً سیاست را به تلاش تخمینی شکستن مرتبط سازند.
حسابرسی خودکار سیستم: اسکن پایگاه‌های داده رمز عبور موجود (هش شده) برای تخمین توزیع آنتروپی انتظار جمعی و شناسایی حساب‌هایی با رمزهای عبور به شدت ضعیف.

جهت‌گیری‌های تحقیقاتی آینده:

تخمین‌زننده‌های قوی تک نمونه‌ای: توسعه و مقایسه روش‌های آماری (مانند استفاده از مدل‌های زبانی عصبی، مدل‌های n-gram یا فیلترهای Bloom) برای تخمین دقیق احتمال/رتبه یک رمز عبور منفرد که $H_E$ از آن مشتق می‌شود.
ارزیابی خصمانه: آزمایش معیار در برابر ابزارهای پیشرفته شکستن رمز عبور و مدل‌های هوش مصنوعی (مانند PassGAN، یک اقتباس از چارچوب شبکه مولد تخاصمی برای رمزهای عبور) برای دیدن اینکه آیا تلاش پیش‌بینی شده با زمان‌های واقعی شکستن مطابقت دارد یا خیر.
فراتر از رمزهای عبور: اعمال مفهوم نرمال‌شده "کسری تلاش" به سایر اسرار، مانند کلیدهای رمزنگاری (جایی که بیت‌ها استاندارد هستند) یا الگوهای بیومتریک، برای ایجاد یک معیار استحکام یکپارچه در بین عوامل مختلف احراز هویت.
تلاش‌های استانداردسازی: پیشنهاد آنتروپی انتظار یا اصول آن به نهادهایی مانند NIST برای گنجاندن در بازنگری‌های آینده دستورالعمل‌های هویت دیجیتال (مانند SP 800-63B).

9. مراجع

وزارت فدرال آموزش و تحقیقات آلمان (BMBF). جزئیات گرنت برای پروژه PHY2APP.
M. Dell'Amico, P. Michiardi, Y. Roudier, "Password Strength: An Empirical Analysis," در Proceedings of IEEE INFOCOM, 2010. (نماینده بررسی روش‌های استحکام رمز عبور).
موسسه ملی استاندارد و فناوری (NIST). Entropy Estimation Suite. [آنلاین]. موجود در: https://github.com/usnistgov/entropy-estimation
NIST Special Publication 800-90B. Recommendation for the Entropy Sources Used for Random Bit Generation.
J. Kelsey, K. A. McKay, M. Turan, "Predictive Models for Min-Entropy Estimation," در Proceedings of CHES, 2015.
K. Reaz, G. Wunder, "ComPass: A Protocol for Secure and Usable Wi-Fi Device Provisioning," در Proceedings of ACM WiSec, 2023. (فرض شده از متن).
C. E. Shannon, "A Mathematical Theory of Communication," The Bell System Technical Journal, جلد. 27, صص. 379–423, 623–656, 1948.
R. V. L. Hartley, "Transmission of Information," The Bell System Technical Journal, جلد. 7, شماره. 3, صص. 535–563, 1928.
J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," در Proceedings of IEEE Symposium on Security and Privacy, 2012.
J. L. Massey, "Guessing and Entropy," در Proceedings of IEEE International Symposium on Information Theory (ISIT), 1994.
C. Cachin, Entropy Measures and Unconditional Security in Cryptography. پایان‌نامه دکتری, ETH Zurich, 1997.
J. O. Pliam, "The Disparity between Work and Entropy in Cryptology," 1998. [آنلاین]. موجود در: https://eprint.iacr.org/1998/024
B. Hitaj, P. Gasti, G. Ateniese, F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," در Proceedings of ACNS, 2019. (مرجع خارجی برای ارزیابی هوش مصنوعی خصمانه).