ارتقای امنیت رمز عبور: یک چارچوب امتیازدهی با دقت بالا با استفاده از جنگل‌های تصادفی

فهرست مطالب

1. مقدمه

رمزهای عبور همچنان مکانیزم اصلی احراز هویت هستند، اما در عین حال یک نقطه آسیب‌پذیری حیاتی محسوب می‌شوند. سنجنده‌های سنتی قدرت رمز عبور که بر قواعد ایستا مانند الزامات نوع کاراکتر (LUDS) تکیه دارند، به راحتی توسط الگوهای قابل پیش‌بینی (مانند 'P@ssw0rd1!') دور زده می‌شوند و حس امنیت کاذب ایجاد می‌کنند. این مقاله با پیشنهاد یک سیستم امتیازدهی قدرت رمز عبور مبتنی بر یادگیری ماشین، به رفع این شکاف می‌پردازد. هدف اصلی، فراتر رفتن از بررسی ساده‌گرایانه قواعد و حرکت به سمت مدلی است که آسیب‌پذیری‌های پیچیده و وابسته به بافت در رمزهای عبور انتخاب‌شده توسط انسان را درک کند و در نهایت ارزیابی امنیتی دقیق‌تر و قابل اجراتری ارائه دهد.

2. کارهای مرتبط

تحقیقات پیشین در ارزیابی قدرت رمز عبور، از سنجنده‌های ساده مبتنی بر قاعده به مدل‌های احتمالاتی تکامل یافته است. کارهای اولیه بر قواعد ترکیبی متمرکز بودند. بعدها، دستور زبان‌های مستقل از بافت احتمالاتی (PCFGs) و مدل‌های مارکوف برای مدل‌سازی عادات ایجاد رمز عبور معرفی شدند. اخیراً نیز رویکردهای یادگیری ماشین، از جمله شبکه‌های عصبی، به کار گرفته شده‌اند. با این حال، بسیاری از آن‌ها فاقد قابلیت تفسیرپذیری هستند یا در ادغام مجموعه جامعی از ویژگی‌هایی که هم ضعف‌های نحوی و هم معنایی را در بر می‌گیرند، ناموفق بوده‌اند. این کار بر این بنیادها بنا شده و مهندسی ویژگی پیشرفته را با یک مدل تفسیرپذیر و با عملکرد بالا ترکیب می‌کند.

3. روش پیشنهادی

چارچوب پیشنهادی شامل سه مرحله کلیدی است: آماده‌سازی داده، استخراج ویژگی پیچیده، و آموزش/ارزیابی مدل.

3.1. مجموعه داده و پیش‌پردازش

مدل بر روی مجموعه‌داده‌ای متشکل از بیش از ۶۶۰,۰۰۰ رمز عبور واقعی آموزش دیده و ارزیابی شده است که احتمالاً از نشت‌های عمومی (با ناشناس‌سازی مناسب) گردآوری شده است. رمزهای عبور بر اساس قدرت تخمینی یا آسیب‌پذیری شناخته شده از تلاش‌های شکستن، برچسب‌گذاری شده‌اند. پیش‌پردازش داده شامل مدیریت کدگذاری و نرمال‌سازی پایه است.

3.2. مهندسی ویژگی ترکیبی

این بخش، نوآوری اصلی مقاله است. مجموعه ویژگی‌ها فراتر از معیارهای پایه رفته تا آسیب‌پذیری‌های ظریف را ثبت کند:

معیارهای پایه: طول، تعداد انواع کاراکتر (LUDS).
آنتروپی شانون نرمال‌شده با لییت‌اسپیک: آنتروپی را پس از معکوس کردن جایگزینی‌های رایج لییت‌اسپیک (مانند '@' -> 'a'، '3' -> 'e') برای ارزیابی تصادفی بودن واقعی محاسبه می‌کند. آنتروپی $H$ به صورت زیر محاسبه می‌شود: $H = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i)$ که در آن $P(x_i)$ احتمال کاراکتر $x_i$ است.
تشخیص الگو: راه‌های صفحه کلید (مانند 'qwerty')، دنباله‌ها (مانند '12345') و کاراکترهای تکراری را شناسایی می‌کند.
ویژگی‌های فرهنگ لغت و N-گرم: در برابر کلمات رایج فرهنگ لغت (چندین زبان) بررسی می‌کند و از TF-IDF در سطح کاراکتر روی n-گرم‌ها (مانند دو-گرم، سه-گرم) برای شناسایی زیررشته‌های پراستفاده از مجموعه‌داده‌های نشت‌یافته استفاده می‌کند.
ویژگی‌های ساختاری: موقعیت انواع کاراکتر، نسبت کاراکترهای منحصربه‌فرد به طول.

3.3. معماری مدل و آموزش

چهار مدل مقایسه شدند: جنگل تصادفی (RF)، ماشین بردار پشتیبان (SVM)، یک شبکه عصبی کانولوشنی (CNN) و رگرسیون لجستیک. جنگل تصادفی به دلیل عملکرد برتر و تفسیرپذیری ذاتی آن، به عنوان مدل نهایی انتخاب شد. مجموعه داده به بخش‌های آموزش، اعتبارسنجی و آزمون تقسیم شد. تنظیم ابرپارامترها با استفاده از جستجوی شبکه یا جستجوی تصادفی اعتبارسنجی متقابل انجام شد.

4. نتایج و تحلیل

4.1. معیارهای عملکرد

مدل جنگل تصادفی در مجموعه آزمون نگه‌داشته شده به دقت ۹۹.۱۲٪ دست یافت که به طور قابل توجهی از سایر مدل‌ها بهتر عمل کرد. معیارهای کلیدی عملکرد در زیر خلاصه شده‌اند:

مقایسه عملکرد مدل

جنگل تصادفی: دقت ۹۹.۱۲٪

ماشین بردار پشتیبان: دقت تقریبی ۹۷.۵٪

شبکه عصبی کانولوشنی: دقت تقریبی ۹۸.۰٪

رگرسیون لجستیک: دقت تقریبی ۹۵.۸٪

آمار مجموعه داده

کل رمزهای عبور: بیش از ۶۶۰,۰۰۰

بُعد بردار ویژگی: بیش از ۵۰

اندازه مجموعه آزمون: ۲۰٪ از کل داده

توضیح نمودار: یک نمودار میله‌ای به صورت بصری دقت هر چهار مدل را نشان می‌دهد و به وضوح برتری جنگل تصادفی را نمایش می‌دهد. یک نمودار دوم می‌تواند منحنی دقت-فراخوانی مدل RF را نشان دهد که نشان‌دهنده استحکام آن در آستانه‌های طبقه‌بندی مختلف است.

4.2. اهمیت ویژگی‌ها

یک مزیت عمده مدل جنگل تصادفی، امکان استخراج امتیازات اهمیت ویژگی است. تحلیل نشان داد که آنتروپی نرمال‌شده با لییت‌اسپیک و پرچم‌های تطبیق فرهنگ لغت در میان پیش‌بین‌کننده‌های برتر قرار دارند که فرضیه حیاتی بودن این ویژگی‌های ترکیبی را تأیید می‌کند. ویژگی‌های تشخیص الگو برای راه‌های صفحه کلید نیز رتبه بالایی داشتند.

4.3. تحلیل مقایسه‌ای

عملکرد مدل RF نشان می‌دهد که روش‌های مبتنی بر درخت گروهی می‌توانند در این وظیفه ساختاریافته و غنی از ویژگی، با قدرت پیش‌بینی شبکه‌های عصبی پیچیده‌تر (CNN) برابری کنند یا از آن فراتر روند، در حالی که شفافیت بسیار بیشتری ارائه می‌دهند. عملکرد ضعیف رگرسیون لجستیک، روابط غیرخطی و پیچیده بین ویژگی‌ها را برجسته می‌کند که مدل‌های خطی ساده‌تر قادر به ثبت آن نیستند.

5. بحث و کار آینده

کاربرد و ادغام: این سیستم امتیازدهی می‌تواند در رابط‌های ایجاد رمز عبور بلادرنگ ادغام شود و بازخورد فوری و دقیق (مانند "ضعیف به دلیل الگوی رایج صفحه کلید 'qwerty'") ارائه دهد، نه فقط یک برچسب ساده "ضعیف/قوی". همچنین می‌تواند برای حسابرسی دوره‌ای پایگاه‌های داده رمز عبور موجود استفاده شود.

جهت‌گیری‌های آینده:

یادگیری متخاصم: آموزش مدل در برابر شکست‌دهنده‌های رمز عبور پیشرفته مانند HashCat یا John the Ripper در یک تنظیم شبیه به GAN برای مقاوم‌سازی آن در برابر استراتژی‌های حمله در حال تکامل، مشابه آموزش متخاصم در مدل‌های تصویری مانند CycleGAN.
امتیازدهی آگاه از بافت: گنجاندن بافت کاربر (مانند نوع سرویس—بانکی در مقابل شبکه اجتماعی، عادات رمز عبور گذشته کاربر) برای آستانه‌های قدرت شخصی‌سازی شده.
یادگیری فدرال: امکان بهبود مستمر مدل با یادگیری از داده‌های رمز عبور جدید در سراسر سازمان‌ها بدون متمرکز کردن داده‌های حساس و حفظ حریم خصوصی.
ادغام هوش مصنوعی قابل تفسیر (XAI): تقویت تحلیل اهمیت ویژگی با توضیحات محلی تفسیرپذیر مستقل از مدل (LIME) برای ارائه راهنمایی کاربری حتی واضح‌تر.

6. دیدگاه تحلیلی: یک تجزیه چهار مرحله‌ای

بینش اصلی: پیشرفت واقعی مقاله، دقت ۹۹٪ نیست—بلکه تنزل استراتژیک دقت خام به عنوان هدف اصلی به نفع هوشمندی تفسیرپذیر و قابل اجرا است. در حوزه‌ای که در شبکه‌های عصبی جعبه سیاه غرق شده، نویسندگان به درستی جنگل تصادفی را انتخاب کردند نه فقط به این دلیل که کار می‌کند، بلکه به این دلیل که می‌تواند توضیح دهد چرا کار می‌کند. این امر، ارزش پیشنهادی را از صرفاً پیش‌بینی به آموزش کاربر و استحکام سیستم تغییر می‌دهد، یک چرخش حیاتی که اغلب در مقالات آکادمیک ML-برای-امنیت نادیده گرفته می‌شود.

جریان منطقی و استواری استراتژیک: منطق بی‌عیب است: ۱) قواعد ایستا شکسته شده‌اند، ۲) بنابراین، از داده‌های نشت واقعی بیاموزید، ۳) اما یادگیری الگوهای پیچیده نیازمند ویژگی‌های پیچیده است (از این رو مهندسی ترکیبی)، ۴) با این حال، برای پذیرش، سیستم باید امتیازات خود را توجیه کند. انتخاب معیارسنجی در برابر SVM، CNN و رگرسیون لجستیک هوشمندانه است—نشان می‌دهد که مهندسی ویژگی آن‌ها چنان قدرتمند است که یک مدل نسبتاً ساده و تفسیرپذیر می‌تواند از جایگزین‌های پیچیده‌تر پیشی بگیرد. این یک کلاس استادانه در طراحی سیستم ML عملی است.

نقاط قوت و ضعف‌های آشکار: مجموعه ویژگی ترکیبی، به ویژه آنتروپی نرمال‌شده با لییت‌اسپیک، ظریف و مؤثر است. استفاده از یک مجموعه داده بزرگ و واقعی، تحقیق را در واقعیت مستحکم می‌کند. با این حال، ضعف اصلی مقاله، فرض ضمنی آن است: که داده‌های نشت گذشته به طور کامل آسیب‌پذیری آینده را پیش‌بینی می‌کنند. این مدل ذاتاً نگاه به گذشته دارد. یک مهاجم پیچیده که از هوش مصنوعی مولد برای ایجاد رمزهای عبور نوآورانه، غیر مبتنی بر فرهنگ لغت اما از نظر روانشناختی محتمل (تکنیکی که در تحقیقات اخیر OpenAI و Anthropic در مورد ایمنی هوش مصنوعی به آن اشاره شده) استفاده می‌کند، می‌تواند به طور بالقوه آن را دور بزند. مدل آخرین جنگ را به طور درخشان می‌جنگد، اما جنگ بعدی ممکن است نیازمند زرادخانه‌ای اساساً متفاوت باشد.

بینش‌های قابل اجرا برای متخصصان:

اقدام فوری: تیم‌های امنیتی باید بر فروشندگان فشار بیاورند تا سنجنده‌های مبتنی بر LUDS را با سیستم‌های مبتنی بر ML و تفسیرپذیر مانند این جایگزین کنند. بازده سرمایه‌گذاری تنها در جلوگیری از حملات پرکردن اعتبار، بسیار زیاد است.
اولویت توسعه: تمرکز بر ادغام خروجی اهمیت ویژگی در حلقه‌های بازخورد کاربر. گفتن به کاربر که "رمز عبور شما ضعیف است" بی‌فایده است؛ گفتن اینکه "ضعیف است زیرا حاوی یک راه رایج صفحه کلید و یک کلمه فرهنگ لغت است" باعث تغییر رفتار می‌شود.
سرمایه‌گذاری استراتژیک تحقیق و توسعه: آینده در گرو مدل‌های مولد و متخاصم است. منابع را برای توسعه سیستم‌های امتیازدهی که به طور همزمان با شکست‌دهنده‌های رمز عبور هوش مصنوعی در یک شبیه‌سازی مداوم تیم قرمز/تیم آبی آموزش دیده‌اند، تخصیص دهید، مشابه فرآیندهای آموزش متخاصمی که مدل‌هایی مانند CycleGAN برای ترجمه تصویر را چنان مقاوم ساخت. منتظر ماندن برای نشت بزرگ بعدی برای به‌روزرسانی مدل، یک استراتژی بازنده است.

در نتیجه، این کار یک پیروزی تاکتیکی قابل توجه در نبرد امنیت رمز عبور است. با این حال، در نظر گرفتن آن به عنوان یک راه‌حل نهایی، یک اشتباه استراتژیک خواهد بود. این بهترین بنیادی است که تاکنون برای ساخت نسل بعدی سیستم‌های دفاعی انطباق‌پذیر و پیش‌بینی‌کننده بر آن بنا شده است.

7. پیوست فنی

مثال چارچوب تحلیل (غیر کد): ارزیابی رمز عبور "S3cur1ty2024!" را در نظر بگیرید. یک سنجنده سنتی LUDS طول=۱۲، حروف بزرگ، کوچک، ارقام، کاراکترهای ویژه را می‌بیند—احتمالاً آن را "قوی" امتیاز می‌دهد. تحلیل چارچوب ما به این صورت خواهد بود:

نرمال‌سازی لییت‌اسپیک: به "Security2024!" تبدیل می‌شود.
محاسبه آنتروپی: آنتروپی را روی رشته نرمال‌شده محاسبه می‌کند که به دلیل اینکه "Security" یک کلمه رایج فرهنگ لغت است، کاهش می‌یابد.
تطبیق فرهنگ لغت: "Security" را به عنوان یک کلمه ۱۰,۰۰۰ تایی برتر انگلیسی پرچم‌گذاری می‌کند.
تشخیص الگو: "2024" را به عنوان یک الگوی سال ترتیبی رایج پرچم‌گذاری می‌کند.
تحلیل N-گرم: می‌یابد که "ty20" یک زیررشته پرتکرار در رمزهای عبور نشت‌یافته است (اتصال پایان‌های رایج کلمات به پیشوندهای سال رایج).

مدل جنگل تصادفی این ویژگی‌های وزندار را ترکیب می‌کند. در حالی که طول و تنوع کاراکتر به طور مثبت مشارکت می‌کنند، وزن‌های منفی سنگین از تطبیق فرهنگ لغت، سال قابل پیش‌بینی و n-گرم رایج، احتمالاً منجر به امتیاز نهایی "متوسط" یا "ضعیف" می‌شود و ارزیابی ریسک بسیار دقیق‌تر و نقاط بازخورد خاصی ارائه می‌دهد ("از کلمات فرهنگ لغت پرهیز کنید"، "از سال‌های اخیر پرهیز کنید").

8. مراجع

Google Cloud. (2022). گزارش افق‌های تهدید.
Veras, R., et al. (2014). On the Semantic Patterns of Passwords and their Security Impact. In NDSS.
Weir, M., et al. (2010). Password Cracking Using Probabilistic Context-Free Grammars. In IEEE S&P.
Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. In ICCV (CycleGAN).
OpenAI. (2023). گزارش فنی GPT-4. (در مورد قابلیت‌های تولید متن محتمل بحث می‌کند، مرتبط با تولید رمز عبور نوآورانه).
Scikit-learn: Machine Learning in Python. Pedregosa et al., JMLR 12, pp. 2825-2830, 2011.