AC-Pass: یک مدل حدس رمز عبور مبتنی بر یادگیری تقویتی

فهرست مطالب

1.1 مقدمه و مرور کلی
1.2 کارهای مرتبط و بیان مسئله
2. روش‌شناسی: مدل AC-Pass
3. جزئیات فنی و فرمول‌بندی ریاضی
4. تنظیمات آزمایشی و نتایج
5. بینش‌های کلیدی و تحلیل
6. چارچوب تحلیل: یک مثال موردی
7. چشم‌انداز کاربرد و جهت‌های آینده
8. مراجع

1.1 مقدمه و مرور کلی

امنیت رمز عبور همچنان یک مرز حیاتی در امنیت سایبری است. حدس رمز عبور، فرآیند تلاش برای شکستن رمزها با تولید کاندیدهای محتمل، حوزه‌ای حیاتی از پژوهش هم برای تست امنیت تهاجمی و هم برای ارزیابی قدرت دفاعی است. روش‌های سنتی مانند دستور زبان احتمالی مستقل از متن (PCFG) و رویکردهای یادگیری عمیق اخیر، به ویژه آن‌هایی که مبتنی بر شبکه‌های مولد تخاصمی (GAN) هستند، نویدبخش بوده‌اند. با این حال، مدل‌های مبتنی بر GAN اغلب از هدایت ناکافی متمایزکننده به مولد در طول آموزش رنج می‌برند که منجر به کارایی زیربهینه تولید رمز عبور می‌شود. این مقاله AC-Pass را معرفی می‌کند، یک مدل نوآورانه حدس رمز عبور که الگوریتم یادگیری تقویتی Actor-Critic را در یک چارچوب GAN ادغام می‌کند تا هدایت گام‌به‌گام و دقیق‌تری برای تولید دنباله رمز عبور فراهم کند و در نتیجه عملکرد شکستن را به طور قابل توجهی بهبود بخشد.

1.2 کارهای مرتبط و بیان مسئله

مدل‌های موجود حدس رمز عبور شامل رویکردهای مبتنی بر قاعده (مانند John the Ripper، قواعد تغییر Hashcat)، مدل‌های احتمالی مانند PCFG و مدل‌های یادگیری عمیق مدرن می‌شوند. مدل‌های مبتنی بر GAN، مانند PassGAN و seqGAN، با یادگیری مستقیم توزیع رمزهای عبور از داده‌ها، نشان‌دهنده یک تغییر پارادایم هستند. چالش اصلی که با آن مواجه می‌شوند، مسئله "تخصیص اعتبار" در تولید ترتیبی است. متمایزکننده یک امتیاز نهایی برای یک رمز عبور کامل ارائه می‌دهد، اما بازخورد کمی در مورد اینکه کدام انتخاب‌های کاراکتر خاص در طول تولید خوب یا بد بوده‌اند ارائه می‌دهد. این سیگنال پاداش ضعیف و تأخیری، کارایی یادگیری مولد را مختل می‌کند که مسئله اصلی‌ای است که AC-Pass هدف حل آن را دارد.

2. روش‌شناسی: مدل AC-Pass

2.1 معماری مدل

AC-Pass یک معماری استاندارد GAN را با گنجاندن یک شبکه Actor-Critic در کنار مولد (Actor) و متمایزکننده بهبود می‌بخشد. اجزای استاندارد GAN حفظ می‌شوند: یک مولد (G) که کاندیدهای رمز عبور را از نویز ایجاد می‌کند، و یک متمایزکننده (D) که رمزهای عبور واقعی را از رمزهای تولید شده تشخیص می‌دهد. نوآوری در شبکه Critic (C) نهفته است که یک تخمین‌زننده تابع ارزش است.

2.2 ادغام Actor-Critic با GAN

در طول تولید ترتیبی یک رمز عبور (کاراکتر به کاراکتر)، شبکه Critic "وضعیت" (دنباله تولید شده جزئی) را ارزیابی می‌کند و پاداش آینده مورد انتظار را پیش‌بینی می‌کند. این مقدار پیش‌بینی شده، همراه با پاداش نهایی از متمایزکننده (پس از تکمیل رمز عبور)، برای محاسبه یک سیگنال مزیت اطلاعاتی‌تر استفاده می‌شود. این سیگنال مزیت به طور مستقیم به‌روزرسانی خط‌مشی Actor (مولد) را در هر گام زمانی هدایت می‌کند و بازخورد فشرده و فوری ارائه می‌دهد که مسئله هدایت ضعیف GANهای ساده را حل می‌کند.

2.3 فرآیند آموزش

آموزش شامل یک بازی تخاصمی بین G و D است، همانند GANهای استاندارد، اما با به‌روزرسانی‌های گرادیان خط‌مشی که توسط چارچوب Actor-Critic هدایت می‌شوند، تقویت می‌شود. Critic آموزش داده می‌شود تا خطای تفاوت زمانی را به حداقل برساند، در حالی که Actor آموزش داده می‌شود تا پاداش تجمعی مورد انتظار را که توسط تخمین‌های ارزش Critic و قضاوت نهایی Discriminator شکل گرفته است، به حداکثر برساند.

3. جزئیات فنی و فرمول‌بندی ریاضی

هدف اصلی یادگیری تقویتی، بیشینه‌سازی بازده مورد انتظار $J(\theta)$ برای خط‌مشی مولد $\pi_\theta$ است:

$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta}[R(\tau)]$

که در آن $\tau$ یک مسیر (یک رمز عبور تولید شده) و $R(\tau)$ پاداش است که عمدتاً از متمایزکننده $D(\tau)$ می‌آید. روش Actor-Critic از یک تابع ارزش $V^\pi(s)$ (تخمین زده شده توسط Critic) برای کاهش واریانس در به‌روزرسانی‌های گرادیان خط‌مشی استفاده می‌کند. گرادیان خط‌مشی به صورت زیر تقریب زده می‌شود:

$\nabla_\theta J(\theta) \approx \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{T} \nabla_\theta \log \pi_\theta(a_t | s_t) \cdot A(s_t, a_t) \right]$

که در آن $A(s_t, a_t)$ تابع مزیت است که اغلب به صورت $A(s_t, a_t) = R_t + \gamma V(s_{t+1}) - V(s_t)$ محاسبه می‌شود. در AC-Pass، $R_t$ توسط خروجی متمایزکننده و پاداش‌های دیگر شکل می‌گیرد و یک سیگنال هدایت ترکیبی ارائه می‌دهد.

4. تنظیمات آزمایشی و نتایج

4.1 مجموعه‌داده‌ها

آزمایش‌ها بر روی سه مجموعه‌داده واقعی رمز عبور لو رفته انجام شد: RockYou، LinkedIn و CSDN. این مجموعه‌داده‌ها نمونه‌های متنوعی از رمزهای عبور انتخاب شده توسط کاربران را برای آموزش و ارزیابی فراهم می‌کنند.

4.2 مدل‌های مقایسه‌ای

AC-Pass با موارد زیر مقایسه شد:
1. PCFG: یک مدل احتمالی کلاسیک.
2. PassGAN: یک مولد رمز عبور استاندارد مبتنی بر GAN.
3. seqGAN: یک GAN که از RL برای تولید دنباله استفاده می‌کند.

4.3 نتایج و تحلیل عملکرد

توضیح نمودار (فرضی بر اساس ادعاهای مقاله): یک نمودار خطی که نرخ تطابق تجمعی رمز عبور (موفقیت در شکستن) را روی محور y در مقابل تعداد حدس‌ها (مثلاً تا ۹×۱۰^۸) روی محور x نشان می‌دهد. نمودار چهار خط را نشان می‌دهد: PCFG، PassGAN، seqGAN و AC-Pass. خط AC-Pass به طور مداوم در کل محدوده حدس بالاتر از دو مدل مبتنی بر GAN دیگر خواهد بود که نشان‌دهنده کارایی بالاتر است. در مجموعه‌های تست "ناهمگن" (جایی که داده‌های آموزش و تست از منابع مختلف می‌آیند، مثلاً آموزش روی RockYou، تست روی LinkedIn)، گزارش شده است که AC-Pass عملکرد برتری نسبت به PCFG نشان می‌دهد که نشان‌دهنده تعمیم‌پذیری بهتر است.

نتیجه کلیدی: در یک مجموعه حدس از ۹×۱۰^۸ رمز عبور، AC-Pass به نرخ شکستن بالاتری نسبت به هر دو PassGAN و seqGAN در هر دو مجموعه تست همگن (هم‌منبع) و ناهمگن (متقاطع-منبع) دست یافت. علاوه بر این، AC-Pass فضای خروجی رمز عبور مؤثر بزرگتری را نشان می‌دهد، به این معنی که نرخ موفقیت آن با افزایش اندازه مجموعه حدس همچنان بهبود می‌یابد، برخلاف برخی مدل‌ها که به حالت ثابت می‌رسند.

بینش کلیدی عملکرد

ادغام Actor-Critic سیگنال "پاداش فشرده" لازم برای تصمیم‌گیری ترتیبی کارآمد در تولید رمز عبور را فراهم کرد که مستقیماً به نرخ برخورد حدس بالاتر در ازای هر تلاش محاسباتی ترجمه شد.

5. بینش‌های کلیدی و تحلیل

بینش اصلی: پیشرفت بنیادی مقاله یک معماری شبکه عصبی جدید نیست، بلکه یک هماهنگی هوشمندانه از اجزای موجود است. این مقاله به درستی مسئله "پاداش پراکنده" را به عنوان نقطه ضعف اصلی حدس رمز عبور مبتنی بر GAN شناسایی می‌کند و یک راه‌حل RL اثبات شده (Actor-Critic) را با دقت جراحی اعمال می‌کند. این بیشتر در مورد یکپارچه‌سازی مؤثر مهندسی است تا اختراع.

جریان منطقی: استدلال محکم است: ۱) GANها برای رمزهای عبور یک مسئله هدایت دارند (درست)، ۲) Actor-Critic هدایت گام‌به‌گام را در RL فراهم می‌کند (درست)، ۳) ادغام آن‌ها باید عملکرد را بهبود بخشد. طراحی آزمایشی، با استفاده از مجموعه‌داده‌ها و معیارهای استاندارد (PCFG، PassGAN)، قوی است و فرضیه را تأیید می‌کند.

نقاط قوت و ضعف: نقاط قوت: مدل به طور ملموسی بهتر از پیشینیان خود عمل می‌کند. عملکرد قوی آن بر روی مجموعه‌داده‌های ناهمگن به ویژه برای شکستن در دنیای واقعی که توزیع رمزهای عبور هدف ناشناخته است، ارزشمند است. مقاله از نظر فنی در محدوده خود محکم است. نقاط ضعف: تحلیل تا حدی کوته‌بینانه است. این مدل در برابر سایر مدل‌های آکادمیک معیارگذاری می‌شود اما از پیشرفته‌ترین حالت در شکستن عملی غافل می‌شود که اغلب شامل حملات ترکیبی عظیم مبتنی بر قاعده (مانند best64.rule در Hashcat) همراه با فرهنگ‌های لغت عظیم نشت داده است. کارایی AC-Pass در مقایسه با یک رویکرد ترکیبی غیر-ML به خوبی تنظیم شده از نظر حدس-در-ثانیه و نرخ موفقیت چگونه است؟ هزینه محاسباتی آموزش و اجرای مدل AC-Pass نیز نادیده گرفته شده است - این یک عامل حیاتی برای پذیرش است.

بینش‌های قابل اجرا: 1. برای مدافعان (تیم آبی): این پژوهش بر پیچیدگی فزاینده حملات مبتنی بر هوش مصنوعی تأکید می‌کند. خط‌مشی‌های دفاعی رمز عبور باید فراتر از مسدود کردن کلمات ساده فرهنگ لغت تکامل یابند. اجرای محدودیت نرخ سختگیرانه، احراز هویت چندعاملی اجباری (MFA) و ترویج استفاده از مدیران رمز عبوری که رمزهای عبور طولانی و واقعاً تصادفی تولید می‌کنند، دیگر اختیاری نیستند. 2. برای پژوهشگران: گام منطقی بعدی، کاوش در آموزش تخاصمی است. آیا می‌توانیم یک "GAN مدافع" بسازیم که رمزهای عبوری را تولید کند که به طور خاص طراحی شده‌اند تا مدل‌هایی مانند AC-Pass را فریب دهند و در نتیجه یک معیار ارزیابی قوی‌تر ایجاد کنند؟ همچنین، بررسی تفسیرپذیری مدل - واقعاً چه الگوهایی را یاد می‌گیرد؟ - می‌تواند بینش‌هایی در مورد سوگیری‌های ایجاد رمز عبور انسانی به دست دهد. 3. برای متخصصان عملیاتی (تیم قرمز/تست نفوذ): اگرچه امیدوارکننده است، اما AC-Pass به دلیل پیچیدگی و سرعت، احتمالاً هنوز جایگزین مستقیمی برای ابزارهای موجود نیست. با این حال، نشان‌دهنده یک مؤلفه قدرتمند برای یک جعبه ابزار جامع حسابرسی رمز عبور است. اولویت باید بر توسعه پیاده‌سازی‌های کارآمد و مقیاس‌پذیری باشد که بتوانند در چارچوب‌هایی مانند Hashcat ادغام شوند.

تحلیل اصلی (۳۰۰-۶۰۰ کلمه): مقاله "AC-Pass: یک مدل حدس رمز عبور مبتنی بر یادگیری تقویتی" یک تکامل قانع‌کننده در جعبه ابزار امنیت تهاجمی مبتنی بر هوش مصنوعی ارائه می‌دهد. مشارکت اصلی آن در ازدواج موفقیت‌آمیز قدرت مولد GANها با چارچوب تصمیم‌گیری ترتیبی دقیق یادگیری تقویتی Actor-Critic نهفته است. این مستقیماً به یک محدودیت شناخته شده در اعمال GANهای استاندارد به تولید دنباله گسسته می‌پردازد، مسئله‌ای که در پژوهش‌های پایه‌ای seqGAN برجسته شده و مشابه چالش‌ها در حوزه‌های دیگر مانند تولید متن با مدل‌های GPT است (جایی که مدل‌های خودرگرسیونی مبتنی بر ترنسفورمر آن را متفاوت حل کردند). دستاوردهای عملکرد گزارش شده قابل توجه و باورپذیر هستند. عملکرد بهتر از PassGAN و seqGAN در معیارهای استاندارد مانند مجموعه‌داده RockYou، رویکرد فنی را تأیید می‌کند. جالب‌تر اینکه، عملکرد برتر آن بر روی مجموعه‌داده‌های ناهمگن (مثلاً آموزش روی RockYou، تست روی LinkedIn) نشان می‌دهد که AC-Pass الگوهای بنیادی‌تر و تعمیم‌یافته‌تری از ایجاد رمز عبور انسانی را یاد می‌گیرد تا صرفاً حفظ کردن مجموعه آموزش. این قابلیت تعمیم‌پذیری برای کارایی در دنیای واقعی حیاتی است، همانطور که در ارزیابی‌های تهدید امنیت سایبری از سازمان‌هایی مانند MITRE ATT&CK ذکر شده است که بر تکنیک‌های حمله سازگار تأکید می‌کنند. با این حال، نگاه کردن به این موضوع از لنز یک متخصص عملیاتی، شکاف‌هایی را آشکار می‌کند. مقاله در یک خلأ نسبتاً آکادمیک وجود دارد. استاندارد طلایی شکستن رمز عبور در دنیای واقعی یک مدل عصبی خالص نیست؛ بلکه یک سیستم ترکیبی و عمل‌گرا است که فرهنگ‌های لغت عظیم گردآوری شده (از نشت‌های گذشته)، قواعد تغییر پیچیده (مانند فرمت‌های پویا در Hashcat یا John the Ripper) و مولدهای مبتنی بر زنجیره مارکوف یا PCFG را ترکیب می‌کند. این سیستم‌ها برای سرعت به شدت بهینه شده‌اند و اغلب میلیاردها حدس در ثانیه را روی خوشه‌های GPU تولید و آزمایش می‌کنند. مقاله کارایی حدس-در-ثانیه AC-Pass را در برابر این ابزارهای استاندارد صنعتی مقایسه نمی‌کند. هزینه آموزش و سرعت استنتاج مدل یادگیری عمیق می‌تواند یک گلوگاه بازدارنده باشد. علاوه بر این، پیامدهای دفاعی آشکار است. با بلوغ مدل‌هایی مانند AC-Pass، خط‌مشی‌های پیچیدگی رمز عبور سنتی (نیاز به حروف بزرگ، اعداد، نمادها) حتی کمتر مؤثر می‌شوند، زیرا این مدل‌ها در یادگیری چنین الگوهایی عالی عمل می‌کنند. این نیاز فوری به یک تغییر پارادایم در احراز هویت را تقویت می‌کند، حرکت به سمت MFA مقاوم در برابر فیشینگ (مانند FIDO2/WebAuthn) و راه‌حل‌های بدون رمز عبور، روندی که به شدت توسط NIST در آخرین دستورالعمل‌های هویت دیجیتال آن‌ها تبلیغ می‌شود. در نتیجه، AC-Pass یک قطعه پژوهشی عالی است که حالت هنر را در یک حوزه تخصصی اما مهم پیش می‌برد. تأثیر واقعی آن توسط ادغام آن در ابزارهای عملی و مقیاس‌پذیر و نقش آن در اجبار به ارتقای بسیار مورد نیاز در استراتژی‌های احراز هویت دفاعی تعیین خواهد شد.

6. چارچوب تحلیل: یک مثال موردی

سناریو: یک تیم امنیتی می‌خواهد استحکام رمزهای عبور پایگاه کاربران خود را در برابر یک حمله مدرن مبتنی بر هوش مصنوعی ارزیابی کند.

کاربرد چارچوب (بدون کد): 1. جمع‌آوری داده و ناشناس‌سازی: یک نمونه از هش‌های رمز عبور (مانند bcrypt) را از پایگاه داده کاربران استخراج کنید. تمام اطلاعات قابل شناسایی شخصی حذف می‌شوند؛ فقط هش و شاید یک شناسه کاربری برای تطابق بعدی نگه داشته می‌شود. 2. انتخاب مدل و آموزش: یک مدل حمله را انتخاب کنید. در این تحلیل، ما AC-Pass را در نظر می‌گیریم. تیم AC-Pass را روی یک پیکره بزرگ خارجی از رمزهای عبور لو رفته (مانند RockYou) آموزش می‌دهد تا الگوهای کلی ایجاد رمز عبور را یاد بگیرد. آن‌ها روی رمزهای عبور کاربران خود آموزش نمی‌بینند. 3. تولید حدس: مدل AC-Pass آموزش دیده یک لیست اولویت‌بندی شده از حدس‌های رمز عبور، مثلاً ۱۰ میلیارد کاندید، تولید می‌کند. 4. شکستن هش و ارزیابی: هر حدس تولید شده با استفاده از همان الگوریتم و پارامترها (نمک و غیره) به عنوان پایگاه داده هدف، هش می‌شود. هش حاصل با هش‌های ذخیره شده مقایسه می‌شود. 5. محاسبه معیار و گزارش‌دهی: برای هر کاربری که هش آن تطابق دارد، "شماره حدس" (موقعیت در لیست مرتب شده که رمز عبور پیدا شد) ثبت می‌شود. معیارهای کلیدی محاسبه می‌شوند: - منحنی تطابق تجمعی: درصد رمزهای عبور شکسته شده به عنوان تابعی از تعداد حدس‌های انجام شده. - رتبه حدس میانگین: میانگین موقعیتی که رمزهای عبور در آن یافت می‌شوند. - آستانه آسیب‌پذیری: چند درصد از رمزهای عبور در یک سناریوی حمله واقع‌بینانه (مثلاً با ۱ میلیارد حدس) شکسته می‌شوند؟ 6. خروجی قابل اجرا: گزارش آسیب‌پذیرترین الگوهای رمز عبور را شناسایی می‌کند (مثلاً "رمزهای عبور حاوی یک کلمه پایه رایج به دنبال یک سال دو رقمی"). داده‌های ملموسی برای توجیه اجرای یک خط‌مشی رمز عبور سخت‌گیرانه‌تر، بازنشانی اجباری رمز عبور برای حساب‌های پرخطر، یا تسریع در استقرار MFA ارائه می‌دهد.

7. چشم‌انداز کاربرد و جهت‌های آینده

کاربردهای کوتاه‌مدت: - حسابرسی امنیتی پیشرفته: ادغام در ابزارهای تیم قرمز برای ارزیابی‌های واقع‌بینانه‌تر استحکام رمز عبور. - تست استرس خط‌مشی رمز عبور: تست پیشگیرانه خط‌مشی‌های ترکیب رمز عبور جدید در برابر حدس‌زن‌های هوش مصنوعی قبل از استقرار. - هوش تهدید: مدل‌سازی قابلیت‌های در حال تکامل ابزارهای شکستن متعلق به مهاجمان.

جهت‌های پژوهش آینده: 1. بهینه‌سازی کارایی: توسعه نسخه‌های سبک‌تر و سریع‌تر مدل (مثلاً از طریق تقطیر دانش، هرس مدل) برای شکستن در زمان واقعی یا در مقیاس بزرگ. 2. معماری‌های مدل ترکیبی: ترکیب AC-Pass با سیستم‌های مبتنی بر قاعده. عامل RL می‌تواند یاد بگیرد که مؤثرترین قواعد تغییر را از یک جعبه ابزار بر اساس زمینه انتخاب و اعمال کند. 3. پژوهش دفاع تخاصمی: استفاده از AC-Pass به عنوان یک مدل حمله برای آموزش GANهای دفاعی که می‌توانند رمزهای عبور مقاوم در برابر چنین حدس‌زن‌های هوش مصنوعی را تشخیص دهند یا تولید کنند و یک شبیه‌سازی مسابقه تسلیحاتی ایجاد کنند. 4. فراتر از رمزهای عبور: اعمال چارچوب AC-Pass به چالش‌های امنیتی ترتیبی دیگر، مانند تولید دنباله‌های ترافیک شبکه مخرب برای تست فرار از IDS یا ایجاد متن ایمیل فیشینگ.

8. مراجع

Li, X., Wu, H., Zhou, T., & Lu, H. (2023). A Password Guessing Model Based on Reinforcement Learning. Computer Science, 50(1), 334-341. (منبع اصلی).
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... & Bengio, Y. (2014). Generative adversarial nets. Advances in neural information processing systems, 27. (مقاله پایه‌ای GAN).
Sutton, R. S., & Barto, A. G. (2018). Reinforcement learning: An introduction. MIT press. (مرجع استاندارد برای روش‌های Actor-Critic).
Hitaj, B., Gasti, P., Ateniese, G., & Perez-Cruz, F. (2017). PassGAN: A deep learning approach for password guessing. In International conference on applied cryptography and network security (pp. 217-237). Springer, Cham. (کار کلیدی قبلی در مورد GANها برای رمزهای عبور).
National Institute of Standards and Technology (NIST). (2020). Digital Identity Guidelines (SP 800-63B). [https://pages.nist.gov/800-63-3/sp800-63b.html] (منبع معتبر در مورد بهترین روش‌های احراز هویت).
The MITRE Corporation. (2023). ATT&CK® Framework, Technique T1110: Brute Force. [https://attack.mitre.org/techniques/T1110/] (زمینه برای حملات رمز عبور در چشمانداز تهدید).