SOPG: توليد كلمات المرور المُرتّبة القائم على البحث للشبكات العصبية ذاتية الانحدار

1. المقدمة

لا تزال كلمات المرور الطريقة الأكثر شيوعًا لمصادقة المستخدمين، حيث توازن بين البساطة والفعالية. ومع ذلك، فإن أمانها يتعرض لتحدٍ دائم من خلال هجمات تخمين كلمات المرور، والتي تُعد عنصرًا حاسمًا في كل من اختبارات الأمان الهجومية وتقييم القوة الدفاعية. للمنهجيات التقليدية، من العدّ القائم على القواعد إلى النماذج الإحصائية مثل سلاسل ماركوف وPCFG، قيود جوهرية في التنوع والكفاءة. ظهور التعلم العميق، وخاصة الشبكات العصبية ذاتية الانحدار، وعد بتحول نموذجي. ومع ذلك، استمر وجود إغفال حاسم: طريقة التوليد نفسها. تقنيات أخذ العينات القياسية تُدخل العشوائية، مما ينتج عنه كلمات مرور مكررة ومخرجات غير مرتبة، مما يعيق بشدة كفاءة الهجوم. تقدم هذه الورقة البحثية SOPG (توليد كلمات المرور المُرتّبة القائم على البحث)، وهي طريقة جديدة تُجبر النماذج ذاتية الانحدار على توليد كلمات المرور بترتيب تنازلي تقريبي للاحتمال، مما يُحدث ثورة في كفاءة تخمين كلمات المرور القائم على الشبكات العصبية.

2. الخلفية والأعمال ذات الصلة

2.1 تطور تخمين كلمات المرور

تطور المجال عبر مراحل متميزة: اعتمدت الطرق القائمة على القواعد الاستدلالية على القواميس اليدوية وقواعد التحويل (مثل قواعد John the Ripper)، والتي كانت تعتمد على الخبرة وافتقرت إلى الأساس النظري. مكّن انتشار تسريبات كلمات المرور الحقيقية بعد عام 2009 من ظهور الطرق الإحصائية. نموذج ماركوف، كما هو مستخدم في OMEN، يتنبأ بالحرف التالي بناءً على تاريخ ذي ترتيب ثابت، بينما تقوم قواعد النحو الخالية من السياق الاحتمالية (PCFG) بتقسيم كلمات المرور إلى أنماط (أحرف، أرقام، رموز) وتعلم احتمالاتها. على الرغم من منهجيتها، غالبًا ما تعاني هذه النماذج من الإفراط في التخصيص وتواجه صعوبة في التعميم.

2.2 منهجيات الشبكات العصبية

ظهرت نماذج التعلم العميق، القادرة على تعلم توزيعات معقدة وعالية الأبعاد، كخلفاء أقوياء. استخدم PassGAN الشبكات التوليدية التنافسية (GANs) لتوليد كلمات المرور، على الرغم من أن شبكات GANs معروفة بعدم استقرارها مع البيانات المنفصلة. طبق VAEPass المُشفرات الذاتية التباينية. أحدث وأكثر المنهجيات صلة هي PassGPT، والتي تستفيد من بنية GPT (المحوّل التوليدي المُدرّب مسبقًا)، وهو نموذج ذاتي الانحدار يتنبأ بالرمز التالي بالنظر إلى جميع الرموز السابقة. ومع ذلك، تعتمد كل هذه النماذج عادةً على أخذ العينات القياسي (مثل أخذ العينات العشوائي، top-k، أخذ العينات النووي) أثناء التوليد، مما لا يضمن الترتيب أو التفرد.

3. طريقة SOPG

3.1 المفهوم الأساسي

تتعامل SOPG مع عدم الكفاءة الأساسية لأخذ العينات العشوائي. بدلاً من توليد كلمات المرور بشكل عشوائي، فهي تصوغ توليد كلمات المرور على أنه مشكلة بحث. الهدف هو اجتياز الفضاء الشاسع لكلمات المرور المحتملة (المُعرّفة بمفردات النموذج والطول الأقصى) بترتيب يقارب الاحتمال التنازلي، كما يُحدده النموذج العصبي الذاتي الانحدار الأساسي.

3.2 خوارزمية البحث

على الرغم من أن ملخص PDF لا يوضح الخوارزمية المحددة، فمن المحتمل أن تستخدم SOPG أو تُعدّل استراتيجية بحث أفضل أولاً أو بحث الحزمة الموجهة بتقديرات احتمالية النموذج. يتم تمثيل كلمة مرور مرشحة كسلسلة من الرموز. يحتفظ البحث بقائمة انتظار ذات أولوية (مثل كومة) للتسلسلات الجزئية أو الكاملة، مُرتّبة حسب احتمالاتها التراكمية أو درجة استدلالية مشتقة منها. في كل خطوة، يتم توسيع المرشح الأكثر وعدًا عن طريق إلحاق الرموز التالية المحتملة (من المفردات)، ويتم تقييم المرشحين الجدد وإدراجهم مرة أخرى في قائمة الانتظار. يضمن ذلك أن يكون تدفق المخرجات مُرتّبًا تقريبًا من الأكثر إلى الأقل احتمالاً.

3.3 نموذج SOPGesGPT

يُنشئ المؤلفون طريقتهم من خلال بناء SOPGesGPT، وهو نموذج لتخمين كلمات المرور يعتمد على بنية GPT. يتم تدريب النموذج على مجموعات بيانات كلمات المرور المسربة لتعلم التوزيع الأساسي. والأهم من ذلك، خلال مرحلة التوليد، يستخدم خوارزمية SOPG بدلاً من أخذ العينات القياسي، مما يجعله الأداة لإثبات تفوق SOPG.

4. التفاصيل التقنية والصياغة الرياضية

بالنظر إلى نموذج ذاتي الانحدار (مثل GPT)، فإن احتمالية تسلسل كلمة المرور $S = (s_1, s_2, ..., s_T)$ تُحلل على النحو التالي: $$P(S) = \prod_{t=1}^{T} P(s_t | s_1, ..., s_{t-1})$$ حيث $s_t$ هو الرمز في الموضع $t$، و $P(s_t | s_1, ..., s_{t-1})$ هو توزيع الاحتمال الناتج للنموذج.

يقوم أخذ العينات العشوائي القياسي بسحب $s_t$ من هذا التوزيع، مما يؤدي إلى مسار عشوائي. على النقيض من ذلك، تهدف SOPG إلى إيجاد التسلسل $S^*$ الذي يعظم $P(S)$ أو يعدّ بشكل منهجي التسلسلات عالية الاحتمال. يمكن النظر إلى هذا على أنه: $$S^* = \arg\max_{S \in \mathcal{V}^*} P(S)$$ حيث $\mathcal{V}^*$ هي مجموعة جميع التسلسلات الممكنة حتى طول أقصى. البحث الشامل غير ممكن عمليًا. لذلك، تستخدم SOPG خوارزمية بحث مستنيرة (مثل $A^*$ بتكلفة لوغاريتم الاحتمال) لتقريب هذا العدّ المُرتّب بكفاءة. يستخدم البحث اللوغاريتم السالب للاحتمال كتكلفة: $\text{cost}(S) = -\sum_{t=1}^{T} \log P(s_t | s_1, ..., s_{t-1})$. تهدف الخوارزمية إلى إخراج التسلسلات بترتيب تكلفة متزايد.

5. النتائج التجريبية والتحليل

معدل التغطية (SOPGesGPT)

35.06%

أعلى تغطية مُحققة في اختبار موقع واحد.

التحسن مقارنة بـ PassGPT

81%

معدل تغطية أعلى من أحدث نموذج.

التحسن مقارنة بـ PassGAN

421%

مكسب هائل مقارنة بالمنهجية القائمة على GAN.

5.1 المقارنة مع أخذ العينات العشوائي

تتحقق الورقة البحثية أولاً من ادعاء الكفاءة الأساسي لـ SOPG مقابل أخذ العينات العشوائي القياسي على نفس النموذج الأساسي. النتائج الرئيسية:

صفر تكرارات: تولد SOPG قائمة فريدة ومرتبة، مما يلغي هدر الموارد الحسابية على التخمينات المكررة.
استدلالات أقل لنفس التغطية: لتحقيق نفس معدل التغطية (نسبة كلمات المرور التي تم اختراقها من مجموعة اختبار)، تتطلب SOPG عددًا أقل بكثير من الاستدلالات النموذجية (تمريرات أمامية) مقارنة بأخذ العينات العشوائي.
عدد أقل بكثير من التخمينات الإجمالية: نتيجة لذلك، تخترق SOPG نفس عدد كلمات المرور عن طريق توليد قائمة تخمين أصغر بكثير، مما يترجم مباشرة إلى أوقات هجوم أسرع.

تثبت هذه التجربة بشكل قاطع أن منهجية التوليد هي عنق زجاجة رئيسي، وأن SOPG تزيله بشكل فعال.

5.2 المقارنة مع أحدث التقنيات

تمت مقارنة SOPGesGPT في اختبار موقع واحد مع المعايير الرئيسية: OMEN (ماركوف)، FLA، PassGAN (GAN)، VAEPass (VAE)، وأحدث نموذج PassGPT (GPT مع أخذ العينات العشوائي).

معدل التغطية: حققت SOPGesGPT معدل تغطية قدره 35.06%. التحسينات مذهلة: 254% مقارنة بـ OMEN، 298% مقارنة بـ FLA، 421% مقارنة بـ PassGAN، 380% مقارنة بـ VAEPass، و 81% مقارنة بـ PassGPT.
المعدل الفعّال: تذكر الورقة أيضًا التقدم في "المعدل الفعّال"، مما يشير على الأرجح إلى عدد كلمات المرور الصالحة الفريدة المُولدة لكل وحدة زمنية أو حسابية، مما يؤكد بشكل أكبر على كفاءة SOPG.

وصف الرسم البياني: سيظهر رسم بياني شريطي "معدل التغطية (%)" على المحور Y وأسماء النماذج على المحور X. سيكون شريط SOPGesGPT أطول بشكل كبير من جميع الآخرين، مع احتلال PassGPT للمركز الثاني ولكن بمستوى أقل بكثير. يمكن أن يُظهر خط علوي عدد التخمينات المطلوبة للوصول إلى تغطية 20%، حيث يرتفع خط SOPGesGPT بسرعة في البداية، مما يوضح قدرته على "الضرب بقوة وسرعة".

6. إطار التحليل ومثال توضيحي

الإطار: رُباعية كفاءة تخمين كلمات المرور
يمكننا تحليل النماذج على محورين: قدرة النموذج (القدرة على تعلم توزيعات معقدة، على سبيل المثال GPT > ماركوف) و كفاءة التوليد (الترتيب الأمثل للمخرجات).

الرُباعية الأولى (قدرة عالية، كفاءة منخفضة): PassGPT، VAEPass. نماذج قوية معطلة بأخذ العينات العشوائي.
الرُباعية الثانية (قدرة عالية، كفاءة عالية): SOPGesGPT. الحالة المستهدفة التي حققها هذا العمل.
الرُباعية الثالثة (قدرة منخفضة، كفاءة منخفضة): الهجمات الأساسية القائمة على القواعد.
الرُباعية الرابعة (قدرة منخفضة، كفاءة عالية): OMEN، FLA. توليدها مرتب بطبيعته (حسب الاحتمال) لكن قدرة نموذجها تحد من الأداء النهائي.

مثال توضيحي غير برمجي: تخيل اثنين من صائدي الكنوز (المهاجمين) لديهما نفس الخريطة عالية الجودة (نموذج GPT المُدرّب). أحد الصيادين (أخذ العينات العشوائي) يمشي بشكل عشوائي، غالبًا ما يعيد زيارة الأماكن، ويجد الكنز ببطء. الصياد الآخر (SOPG) لديه كاشف معادن يشير أولاً إلى الموقع الأكثر وعدًا في الجوار، متبعًا مسارًا منهجيًا وغير مكرر. لنفس عدد الخطوات، يجد صياد SOPG كنزًا أكثر بكثير. SOPG هو ذلك الكاشف المعدني لخريطة الشبكة العصبية.

7. آفاق التطبيق والاتجاهات المستقبلية

التطبيقات الفورية:

التقييم الاستباقي لقوة كلمات المرور: يمكن لشركات الأمن استخدام أدوات مدعومة بـ SOPG لمراجعة سياسات كلمات المرور عن طريق توليد أكثر تخمينات الهجوم احتمالاً بسرعة أكبر بمقدار أضعاف مضاعفة، مما يوفر تقييمات واقعية للمخاطر.
الطب الشرعي الرقمي والاستعادة القانونية: تسريع استعادة كلمات المرور في التحقيقات القانونية حيث الوقت عامل حاسم.

اتجاهات البحث المستقبلية:

استراتيجيات البحث الهجينة: الجمع بين SOPG وعشوائية محدودة لاستكشاف تخمينات "إبداعية" ذات احتمال أقل قليلاً ولكنها قد تكون مثمرة في وقت مبكر، موازنةً بين الاستغلال والاستكشاف.
البsearch المُسرّع بالأجهزة: تنفيذ خوارزمية البحث على وحدات معالجة الرسومات/وحدات معالجة الموترات لتقييم المرشحين بالتوازي، مما يقلل من النفقات العامة لعملية البحث نفسها.
ما بعد كلمات المرور: تطبيق نموذج التوليد المُرتّب على مهام النماذج ذاتية الانحدار الأخرى حيث يكون المخرج المُرتّب والفريد ذا قيمة، مثل توليد حالات الاختبار للبرمجيات، أو إنشاء متغيرات تصميم متنوعة بترتيب الجدوى.
إجراءات مضادة دفاعية: البحث في اكتشاف والدفاع ضد مثل هذه الهجمات الفعالة والمُرتّبة، ربما من خلال دراسة "البصمة" لقائمة تخمين مُولدة بـ SOPG مقابل قائمة عشوائية.

8. المراجع

M. Jin, J. Ye, R. Shen, H. Lu, "Search-based Ordered Password Generation of Autoregressive Neural Networks," Manuscript Submitted for Publication.
A. Narayanan and V. Shmatikov, "Fast dictionary attacks on passwords using time-space tradeoff," in Proceedings of the 12th ACM conference on Computer and communications security, 2005.
M. Weir, S. Aggarwal, B. de Medeiros, and B. Glodek, "Password cracking using probabilistic context-free grammars," in 2009 30th IEEE Symposium on Security and Privacy, 2009.
J. Ma, W. Yang, M. Luo, and N. Li, "A study of probabilistic password models," in 2014 IEEE Symposium on Security and Privacy, 2014.
B. Hitaj, P. Gasti, G. Ateniese, and F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," in Applied Cryptography and Network Security Workshops, 2019.
OpenAI, "Improving Language Understanding by Generative Pre-Training," 2018. [Online]. Available: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
M. Pasquini, D. Bernardo, and G. Ateniese, "PassGPT: Password Modeling and (Guessing) with Large Language Models," in arXiv preprint arXiv:2306.01745, 2023.

9. التحليل الأصلي والتعليقات الخبيرة

الرؤية الأساسية

الاختراق في هذه الورقة ليس بنية عصبية جديدة؛ إنه ضربة جراحية على عنق زجاجة التوليد. لسنوات، كان مجتمع تخمين كلمات المرور، الذي يعكس اتجاهات الذكاء الاصطناعي التوليدي، مهووسًا بقدرة النموذج - محولات أكبر، شبكات GANs أفضل - بينما عالج عملية أخذ العينات على أنها مشكلة ثانوية تم حلها. يحدد Jin وزملاؤه هذا بشكل صحيح على أنه مغالطة حرجة. أخذ العينات العشوائي من نموذج قوي يشبه استخدام بندقية قنص دقيقة لرش الرصاص بشكل عشوائي؛ تضيف SOPG المنظار والاستراتيجية. هذا التحول في التركيز من النمذجة إلى البحث هو المساهمة المفاهيمية الأكثر أهمية في الورقة. يوضح أنه في تطبيقات الأمان حيث يرتبط ترتيب المخرجات مباشرة بمعدل النجاح (اختراق أسهل كلمات المرور أولاً)، يمكن أن تفوق كفاءة البحث المكاسب الهامشية في دقة النموذج.

التدفق المنطقي

الحجة مقنعة وذات هيكل جيد: (1) إثبات أهمية وعدم كفاءة التخمين العصبي الحالي (عشوائي، مليء بالتكرارات). (2) اقتراح SOPG كحل قائم على البحث لفرض توليد مرتب حسب الاحتمال وفريد. (3) إثبات كفاءة SOPG تجريبيًا على نفس النموذج مقارنة بأخذ العينات العشوائي - دراسة فصل نظيفة. (4) إظهار التفوق الشامل من خلال بناء SOPGesGPT وتحطيم المعايير القائمة. التحسن بنسبة 81% مقارنة بـ PassGPT مُعبر بشكل خاص؛ فهو يعزل قيمة SOPG بمقارنة نفس بنية GPT مع مخططي توليد مختلفين.

نقاط القوة والضعف

نقاط القوة: الفكرة الأساسية أنيقة وذات تأثير كبير. تصميم التجربة قوي، مع نتائج واضحة وحاسمة. المكاسب في الأداء ليست تدريجية؛ إنها تحويلية، مما يشير إلى أن SOPG يمكن أن تصبح مكونًا قياسيًا جديدًا. العمل يرتبط بعمق مع خوارزميات البحث من الذكاء الاصطناعي الكلاسيكي، مطبقًا إياها في سياق التعلم العميق الحديث - تزاوج مثمر بين المجالات.

نقاط الضعف والأسئلة المفتوحة: مقتطف PDF يفتقر إلى تفاصيل حاسمة: خوارزمية البحث المحددة (A*، حزمة، أفضل أولاً؟) و النفقات العامة الحسابية لها. البحث ليس مجانيًا؛ الحفاظ على قائمة انتظار ذات أولوية وتقييم العديد من المرشحين له تكلفة. تزعم الورقة "استدلالات أقل"، ولكن هل يأخذ هذا في الاعتبار الاستدلالات الداخلية للبحث؟ هناك حاجة إلى تحليل كامل للتكلفة والفائدة. علاوة على ذلك، فإن وصف "الترتيب التنازلي التقريبي" غامض - ما مدى التقريب؟ هل يتدهور الترتيب لكلمات المرور الطويلة أو المعقدة جدًا؟ المقارنة، على الرغم من إثارتها للإعجاب، هي "اختبار موقع واحد". هناك حاجة للتحقق من التعميم عبر مجموعات بيانات متنوعة (كلمات مرور الشركات مقابل وسائل التواصل الاجتماعي). أخيرًا، كما هو الحال مع جميع التطورات في الهجوم، فهي تحمل خطر كونها تقنية ذات استخدام مزدوج، تمكن الجهات الخبيثة بقدر ما تمكن المدافعين.

رؤى قابلة للتنفيذ

لـ الممارسين في مجال الأمن: اختبروا على الفور قوة كلمات مرور مؤسستكم ضد منهجيات شبيهة بـ SOPG، وليس فقط نماذج ماركوف أو GAN القديمة. قوموا بتحديث مقدرات قوة كلمات المرور لمراعاة هذا الجيل الجديد من الهجمات الفعالة والمُرتّبة.

لـ باحثي الذكاء الاصطناعي/التعلم الآلي: هذه دعوة لإعادة فحص استراتيجيات التوليد في النماذج ذاتية الانحدار للمهام الموجهة نحو الهدف. لا تركزوا فقط على منحنيات الخسارة؛ حللوا كفاءة مسار الاستدلال. استكشفوا منهجيات هجينة عصبية-رمزية حيث يوجه نموذج مُتعلم بحثًا كلاسيكيًا.

لـ البائعين وصنّاع السياسات: عجلوا بالانتقال إلى ما بعد كلمات المرور. تجعل SOPG هجمات القاموس فعالة جدًا لدرجة أن حتى كلمات المرور المعقدة بشكل معتدل تكون في خطر أكبر. استثمروا في وفرضوا المصادقة متعددة العوامل المقاومة للتصيد (مثل FIDO2/WebAuthn) كطريقة المصادقة الأساسية. لأنظمة كلمات المرور القديمة، نفذوا تحديد معدل صارم وكشف شذوذ مضبوط لاكتشاف نمط هجوم مُرتّب وعالي السرعة.

في الختام، هذه الورقة لا تتقدم فقط في تخمين كلمات المرور؛ بل تقدم درسًا رئيسيًا في كيفية أن تحسين الخطوة النهائية في خط أنابيب الذكاء الاصطناعي - استراتيجية التوليد - يمكن أن ينتج عنه مكاسب أداء في العالم الحقيقي أكبر من مجرد توسيع النموذج نفسه إلى ما لا نهاية. إنه درس في كفاءة الذكاء الاصطناعي التطبيقي الذي يتردد صداه إلى ما هو أبعد من الأمن السيبراني.