انتخاب زبان

امتیازدهی با دقت بالا به استحکام رمز عبور با استفاده از جنگل‌های تصادفی

مقاله‌ای پژوهشی که یک سیستم امتیازدهی به استحکام رمز عبور مبتنی بر یادگیری ماشین با استفاده از جنگل‌های تصادفی ارائه می‌دهد و با تحلیل آسیب‌پذیری‌های ظریف فراتر از قواعد سنتی، به دقت ۹۹.۱۲٪ دست می‌یابد.
strongpassword.org | PDF Size: 0.5 MB
امتیاز: 4.5/5
امتیاز شما
شما قبلاً به این سند امتیاز داده اید
جلد سند PDF - امتیازدهی با دقت بالا به استحکام رمز عبور با استفاده از جنگل‌های تصادفی

1. مقدمه

رمزهای عبور مکانیزم اصلی احراز هویت هستند، اما در عین حال یک آسیب‌پذیری حیاتی را نمایندگی می‌کنند. سنجه‌های سنتی استحکام رمز عبور که بر قواعد ایستا مانند الزامات نوع کاراکتر (LUDS) تکیه دارند، در برابر حملات حدسی مدرن ناکافی هستند. این روش‌ها در تشخیص الگوهای قابل پیش‌بینی (مانند 'P@ssw0rd1!') شکست می‌خورند و منجر به احساس امنیت کاذب می‌شوند. این مقاله با ارائه یک سیستم امتیازدهی مبتنی بر یادگیری ماشین که با یادگیری از داده‌های رمز عبور دنیای واقعی و مهندسی ویژگی پیچیده، استحکام رمز عبور را دقیق‌تر ارزیابی می‌کند، به پر کردن این شکاف می‌پردازد.

2. کارهای مرتبط

این بخش تحول ارزیابی استحکام رمز عبور، از بازبین‌های اولیه مبتنی بر قاعده تا روش‌های احتمالاتی مدرن مانند مدل‌های مارکوف و شبکه‌های عصبی را مرور می‌کند. محدودیت‌های رویکردهای ایستا که الگوهای معنایی و آسیب‌پذیری‌های زمینه‌ای را نادیده می‌گیرند، مورد نقد قرار می‌گیرد و زمینه را برای روش‌شناسی داده‌محور و غنی از ویژگی پیشنهادی فراهم می‌کند.

3. روش پیشنهادی

هسته رویکرد ما یک خط لوله مهندسی ویژگی ترکیبی است که به یک چارچوب یادگیری ماشین مقایسه‌ای تغذیه می‌شود.

3.1. مجموعه داده و پیش‌پردازش

از مجموعه‌داده‌ای متشکل از بیش از ۶۶۰,۰۰۰ رمز عبور دنیای واقعی از نشت‌های شناخته شده استفاده شد. رمزهای عبور بر اساس مقاومت آن‌ها در برابر تلاش‌های شکستن (مانند استفاده از ابزارهایی مانند Hashcat با مجموعه قواعد رایج) به عنوان «ضعیف» یا «قوی» برچسب‌گذاری شدند.

3.2. مهندسی ویژگی ترکیبی

ما فراتر از معیارهای پایه (طول، آنتروپی) حرکت می‌کنیم تا آسیب‌پذیری‌های ظریف را ثبت کنیم:

  • آنتروپی شانون نرمال‌شده با لییت‌اسپیک: آنتروپی را پس از معکوس کردن جایگزینی‌های رایج کاراکتر (مانند '@' -> 'a', '3' -> 'e') برای ارزیابی تصادفی بودن واقعی محاسبه می‌کند.
  • تشخیص الگو: راه‌های صفحه کلید (مانند 'qwerty')، دنباله‌ها (مانند '12345') و کاراکترهای تکراری را شناسایی می‌کند.
  • ان‌گرم‌های TF-IDF در سطح کاراکتر: زیررشته‌های پرتکرار را از مجموعه‌داده‌های نشت‌یافته استخراج می‌کند تا قطعات رمز عبور معمولاً استفاده‌شده مجدد را پرچم‌گذاری کند.
  • تطبیق فرهنگ لغت: وجود کلمات از چندین فرهنگ لغت (انگلیسی، نام‌ها، مکان‌ها) را بررسی می‌کند.

3.3. معماری مدل و آموزش

چهار مدل آموزش داده شد و مقایسه شدند: جنگل تصادفی (RF)، ماشین بردار پشتیبان (SVM)، یک شبکه عصبی کانولوشنی (CNN) برای تحلیل دنباله، و رگرسیون لجستیک به عنوان خط پایه. مجموعه داده به ۷۰٪ آموزش، ۱۵٪ اعتبارسنجی و ۱۵٪ آزمون تقسیم شد.

4. نتایج و تحلیل

4.1. معیارهای عملکرد

مدل جنگل تصادفی به عملکرد برتر دست یافت:

دقت مجموعه آزمون

۹۹.۱۲٪

جنگل تصادفی

دقت مقایسه‌ای

  • SVM: ۹۷.۴۵٪
  • CNN: ۹۸.۰۱٪
  • رگرسیون لجستیک: ۹۵.۸۸٪

توضیح نمودار: یک نمودار میله‌ای به صورت بصری برتری قابل توجه مدل RF در دقت نسبت به سه مدل دیگر را به تصویر می‌کشد. یک ماتریس درهم‌ریختگی برای مدل RF، منفی‌های کاذب حداقلی (طبقه‌بندی نادرست رمزهای عبور ضعیف به عنوان قوی) را نشان می‌دهد که برای امنیت حیاتی است.

4.2. اهمیت ویژگی‌ها

قابل تفسیر بودن جنگل تصادفی امکان تحلیل اهمیت ویژگی را فراهم کرد. مهم‌ترین عوامل مؤثر در تصمیم مدل عبارت بودند از:

  1. آنتروپی نرمال‌شده با لییت‌اسپیک
  2. وجود کلمات فرهنگ لغت
  3. امتیاز الگوی صفحه کلید
  4. امتیاز TF-IDF برای ۳-گرم‌های رایج
  5. طول خام رمز عبور

این تحلیل تأیید می‌کند که ویژگی‌های نوآورانه (آنتروپی نرمال‌شده، الگوها) نسبت به معیارهای سنتی صرفاً مبتنی بر طول، تمایز بیشتری دارند.

5. بحث و کار آینده

چشم‌انداز کاربرد: این سیستم امتیازدهی را می‌توان در رابط‌های ایجاد رمز عبور بلادرنگ (مانند هنگام ثبت‌نام کاربر) ادغام کرد تا بازخورد خاص و قابل اقدام ارائه دهد (مانند "رمز عبور شما شامل یک راه رایج صفحه کلید 'qwerty' است."). همچنین می‌توان از آن برای حسابرسی دوره‌ای پایگاه‌های داده رمز عبور موجود استفاده کرد.

جهت‌های آینده:

  • یادگیری تطبیقی: مدل را به طور مداوم با داده‌های نشت جدید و الگوهای حمله نوظهور (مانند حدس‌های رمز عبور تولیدشده توسط هوش مصنوعی) به‌روزرسانی کنید.
  • زمینه چندزبانه و فرهنگی: کتابخانه‌های فرهنگ لغت و الگو را برای پوشش زبان‌های غیرانگلیسی و رمزهای عبور خاص فرهنگی گسترش دهید.
  • یادگیری فدرال: مدل‌ها را بر روی داده‌های رمز عبور غیرمتمرکز بدون افشای رمزهای عبور خام آموزش دهید و حریم خصوصی را افزایش دهید.
  • ادغام با مدیران رمز عبور: از مدل برای ارزیابی و پیشنهاد عبارات عبور قوی و در عین حال به یاد ماندنی استفاده کنید.

6. دیدگاه تحلیلگر: یک تجزیه چهار مرحله‌ای

بینش اصلی: این مقاله یک حقیقت حیاتی اما اغلب نادیده گرفته شده را ارائه می‌دهد: امنیت رمز عبور یک مسئله تشخیص الگو است، نه یک تمرین انطباق با قاعده. نویسندگان به درستی شناسایی می‌کنند که دشمن فقط رمزهای عبور کوتاه نیست، بلکه رمزهای عبور قابل پیش‌بینی هستند – ظرافتی که در بیشتر ابزارهای امنیتی مبتنی بر انطباق گم شده است. دقت ۹۹.۱۲٪ آن‌ها فقط یک عدد نیست؛ این یک اتهام مستقیم به بازبین‌های مبتنی بر LUDS است که هنوز در سیستم‌های بی‌شماری تعبیه شده‌اند.

جریان منطقی: استدلال به صورت قانع‌کننده‌ای ساختار یافته است. با از هم گسستن فناوری حاکم (قواعد ایستا) شروع می‌شود، نیاز به یک سیستم یادگیری را برقرار می‌کند و سپس پرونده خود را آجر به آجر می‌سازد: یک مجموعه داده قوی، مهندسی ویژگی مبتکرانه (آنتروپی لییت‌اسپیک یک ضربه استادانه است) و یک مقایسه مدل عمل‌گرا. انتخاب جنگل تصادفی یک حرکت زیرکانه است – این مدل بخش کوچکی از عملکرد بالقوه یادگیری عمیق را فدای استاندارد طلایی قابلیت تفسیر می‌کند که برای توصیه امنیتی رو به کاربر غیرقابل مذاکره است.

نقاط قوت و ضعف: نقطه قوت به طور قطع در مجموعه ویژگی‌ها است. فراتر از دستورالعمل‌های NIST SP 800-63B حرکت می‌کنند و مانند رمزشکنان به مسئله حمله می‌کنند، نه مانند بوروکرات‌ها. ضعف، مانند هر مدل نظارت‌شده، وابستگی آن به داده‌های تاریخی است. این مدل در گرفتن 'P@ssw0rd1!' دیروز درخشان است، اما در برابر رمزهای عبور ساخته‌شده توسط هوش مصنوعی و دارای پروفایل روانشناختی فردا چگونه عمل می‌کند؟ این مدل واکنشی است، نه پیش‌کننده. علاوه بر این، در حالی که مجموعه داده بزرگ است، نمایندگی آن از عادات رمز عبور چندزبانه جهانی اثبات نشده است.

بینش‌های قابل اقدام: برای CISOs، نتیجه گیری روشن است: ارزیابی فیلترهای رمز عبور مبتنی بر ML را برای هر توسعه برنامه جدید اجباری کنید. برای توسعه‌دهندگان، طرح مهندسی ویژگی طلای متن‌باز است – همین حالا شروع به پیاده‌سازی این بررسی‌ها کنید، حتی به عنوان یک لایه ابتکاری ساده در بالای سیستم‌های موجود. جامعه پژوهشی باید این را به عنوان یک مدل بنیادی در نظر بگیرد و تلاش‌ها را بر مرز بعدی متمرکز کند: آموزش متخاصم برای پیش‌بینی الگوهای حمله جدید، بسیار شبیه به چگونگی تکامل شبکه‌های متخاصم مولد (GANs) در بینایی کامپیوتر (همانطور که در مقاله بنیادی CycleGAN توسط Zhu و همکاران دیده می‌شود) برای مدیریت ترجمه تصویر جفت‌نشده، یک مسئله نگاشت به همان اندازه پیچیده.

7. پیوست فنی

7.1. فرمول‌بندی ریاضی

آنتروپی نرمال‌شده با لییت‌اسپیک: ابتدا، یک تابع نرمال‌سازی $N(p)$ یک رشته رمز عبور را به شکل «بدون لییت» آن نگاشت می‌کند (مثلاً $N("P@ssw0rd") = "Password"$). سپس آنتروپی شانون $H$ بر روی رشته نرمال‌شده محاسبه می‌شود: $$H(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i)$$ که در آن $X$ رشته رمز عبور نرمال‌شده است، $n$ اندازه مجموعه کاراکتر است و $P(x_i)$ احتمال کاراکتر $x_i$ است.

TF-IDF برای ان‌گرم‌های کاراکتر: برای یک ان‌گرم داده شده $t$ (مثلاً یک دنباله ۳ کاراکتری) در رمز عبور $d$، درون یک پیکره $D$ از رمزهای عبور نشت‌یافته: $$\text{TF-IDF}(t, d, D) = \text{freq}(t, d) \times \log\left(\frac{|D|}{|\{d \in D : t \in d\}|}\right)$$ یک امتیاز بالا نشان‌دهنده یک زیررشته است که در یک رمز عبور خاص رایج است اما همچنین به طور غیرمعمول در میان رمزهای عبور نشت‌یافته شایع است و نشان‌دهنده ریسک بالا است.

7.2. مثال چارچوب تحلیل

سناریو: ارزیابی رمز عبور "M1cr0$0ft_2024".

کاربرد چارچوب:

  1. معیارهای پایه: طول=۱۴، دارای حروف بزرگ، کوچک، ارقام، کاراکترهای ویژه. بازبین سنتی: قوی.
  2. نرمال‌سازی لییت‌اسپیک: N("M1cr0$0ft_2024") -> "Microsoft_2024". آنتروپی به طور قابل توجهی کاهش می‌یابد زیرا به یک کلمه قابل پیش‌بینی + سال تبدیل می‌شود.
  3. تشخیص الگو: بدون راه‌های صفحه کلید. شامل دنباله "2024" است.
  4. فرهنگ لغت و TF-IDF: شامل کلمه فرهنگ لغت "Microsoft" (پس از نرمال‌سازی) است. زیررشته "soft" ممکن است از نشت‌های قبلی امتیاز TF-IDF بالایی داشته باشد.
  5. استنتاج مدل: مدل جنگل تصادفی، با وزن‌دهی آنتروپی نرمال‌شده پایین، وجود کلمه فرهنگ لغت و زیررشته رایج، احتمالاً این را به عنوان ضعیف یا متوسط طبقه‌بندی می‌کند و بازخورد خاصی ارائه می‌دهد: "شامل یک نام شرکت رایج و یک سال اخیر است."
این مثال نشان می‌دهد که چگونه چارچوب، آسیب‌پذیری‌های نامرئی برای سیستم‌های مبتنی بر قاعده را آشکار می‌کند.

8. مراجع

  1. Google Cloud. (2022). پیش‌بینی امنیت سایبری ۲۰۲۲.
  2. Ur, B., et al. (2016). "آیا درک کاربران از امنیت رمز عبور با واقعیت مطابقت دارد؟" در Proceedings of CHI 2016.
  3. Weir, M., et al. (2010). "شکستن رمز عبور با استفاده از دستور زبان‌های مستقل از متن احتمالاتی." در IEEE Symposium on Security and Privacy.
  4. Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). "ترجمه تصویر به تصویر جفت‌نشده با استفاده از شبکه‌های متخاصم چرخه‌سازگار." در Proceedings of ICCV 2017. (به عنوان نمونه‌ای از تکامل چارچوب متخاصم ذکر شده است).
  5. National Institute of Standards and Technology (NIST). (2017). راهنمای هویت دیجیتال (SP 800-63B).