SODA ADVANCE: تحليل قوة كلمات المرور عبر بيانات الشبكات الاجتماعية ونماذج اللغة الكبيرة

1. المقدمة

لا تزال كلمات المرور هي خط الدفاع الأساسي ضد الوصول غير المصرح به، لكن سلوك المستخدم غالبًا ما يُفضل سهولة التذكر على الأمان. فحصات قوة كلمات المرور التقليدية، التي تعتمد على قواعد صرفية ثابتة (مثل الطول، تنوع الأحرف)، تفشل في مراعاة السياق الدلالي لاختيارات المستخدم. غالبًا ما يستمد المستخدمون كلمات المرور من المعلومات الشخصية - الأسماء، أعياد الميلاد، الهوايات - والكثير منها متاح الآن للعموم على منصات التواصل الاجتماعي.

تقدم هذه الورقة البحثية SODA ADVANCE، وهي أداة لإعادة بناء البيانات تم توسيعها بوحدة لتقييم قوة كلمة المرور من خلال الاستفادة من بيانات الشبكات الاجتماعية المتاحة للعموم. علاوة على ذلك، تبحث في الدور ذي الحدين لنماذج اللغة الكبيرة (LLMs): كأصل محتمل لتوليد كلمات مرور قوية ومخصصة وتقييم الأمان، وكتهديد كبير في حالة إساءة استخدامها لاختراق كلمات المرور.

يوجه البحث ثلاثة أسئلة رئيسية (RQs): هل يمكن لنماذج اللغة الكبيرة توليد كلمات مرور معقدة لكن سهلة التذكر بناءً على البيانات العامة (RQ1)؟ هل يمكنها تقييم قوة كلمة المرور بشكل فعال مع مراعاة المعلومات الشخصية (RQ2)؟ وكيف يؤثر انتشار البيانات عبر شبكات متعددة على هذه القدرات (RQ3)؟

2. إطار عمل SODA ADVANCE

SODA ADVANCE هو تطور لأداة SODA، مصمم خصيصًا لتقييم قابلية كلمة المرور للاختراق من خلال إعادة بناء البصمة الرقمية للمستخدم من مصادر عامة.

2.1. البنية الأساسية والوحدات

تتضمن بنية الإطار، كما هو موضح في الشكل 1 من ملف PDF، عدة وحدات متكاملة:

تجميع البيانات: تقوم برامج الزحف والاستخراج الآلي بجمع بيانات المستخدم المتاحة للعموم (معلومات الملف الشخصي، المنشورات، الصور) من شبكات اجتماعية متعددة.
إعادة بناء البيانات ودمجها: يتم دمج المعلومات من مصادر مختلفة لبناء ملف تعريف شامل للمستخدم. يمكن لتقنيات مثل التعرف على الوجه ربط صور الملف الشخصي بهويات أخرى.
وحدة قوة كلمة المرور: وحدة التحليل الأساسية تأخذ كلمة مرور مدخلة وملف المستخدم المعاد بناؤه لتقييم القوة باستخدام مقاييس متعددة.

وصف الرسم البياني (نظرة عامة على الشكل 1): يوضح الرسم البياني خط أنابيب يبدأ بجمع البيانات (برنامج الزحف/المستخرج الآلي) من الشبكات الاجتماعية، مما يؤدي إلى وحدة دمج (التعرف على الوجه، دمج البيانات). يغذي ملف التعريف المعاد بناؤه (الذي يحتوي على الاسم، اللقب، المدينة، إلخ) وكلمة المرور المدخلة (INPUT PASSWORD) وحدة تجميع تحسب المقاييس (CUPP, LEET, COVERAGE, FORCE, CPS) وتخرج بنتيجة قوة، مصورة بميزان يميل نحو "نعم" أو "لا".

2.2. مقاييس قوة كلمة المرور

يستخدم SODA ADVANCE ويوسع عدة مقاييس معتمدة:

CUPP (مُشكّل كلمات مرور المستخدم الشائعة): يتحقق مما إذا كانت كلمة المرور موجودة في القواميس الشائعة أو الأنماط المتعلقة بالمستخدم (النتيجة: 1 إذا كانت شائعة، وإلا أقل).
تحويل لغة الليت (LEET Speak): يقيم مقاومة كلمة المرور لعمليات استبدال الأحرف البسيطة (مثل a→@, e→3). تشير النتيجة المنخفضة إلى تحويل ليت أعلى، مما يشير إلى محاولة لإخفاء كلمة أساسية ضعيفة.
التغطية (COVERAGE): يقيس نسبة البيانات الشخصية المعاد بناؤها للمستخدم (الرموز) الموجودة في كلمة المرور. التغطية العالية سيئة.
القوة (FORCE): مقياس مركب يقدر وقت الاختراق بناءً على الطول ومجموعة الأحرف والإنتروبيا.

تقدم الورقة البحثية مقياسًا جديدًا هو قوة كلمة المرور التراكمية (CPS)، والذي يجمع النتائج من الطرق المذكورة أعلاه في مؤشر قوة واحد وشامل.

3. نماذج اللغة الكبيرة: الدور المزدوج في أمن كلمات المرور

يفترض البحث أن نماذج اللغة الكبيرة مثل GPT-4 تمثل تحولًا نموذجيًا، حيث تعمل كأداة قوية للدفاع وسلاح فعال للهجوم في نفس الوقت.

3.1. نماذج اللغة الكبيرة لتوليد كلمات المرور

عند إعطائها بيانات الملف الشخصي العامة للمستخدم، يمكن لنماذج اللغة الكبيرة توليد كلمات مرور تكون:

قوية: فهي تتضمن إنتروبيا عالية، وطولًا، وتنوعًا في الأحرف.
مخصصة وسهلة التذكر: يمكنها إنشاء كلمات مرور بناءً على اهتمامات المستخدم (مثل "OrangeSystem23" لمستخدم اسمه جورج يحب البرتقال ودرس الأنظمة)، مما يجعلها أسهل في التذكر من السلاسل العشوائية.
واعية بالسياق: تتجنب فخاخ البيانات الشخصية الواضحة إذا تم توجيهها لذلك.

هذه القدرة تجيب على RQ1 بالإيجاب ولكنها تسلط الضوء أيضًا على التهديد: يمكن للمهاجمين استخدام نفس التقنية لتوليد تخمينات لكلمات المرور ذات احتمالية عالية.

3.2. نماذج اللغة الكبيرة لتقييم كلمات المرور

بعد التوليد، يمكن توجيه نماذج اللغة الكبيرة لتقييم كلمة مرور معينة مقابل ملف تعريف المستخدم. يمكنها التفكير دلاليًا، وتحديد الروابط غير الواضحة (على سبيل المثال، قد تكون كلمة المرور "Orange123" ضعيفة لمستخدم فريقه المفضل في كرة السلة هو Orlando Magic ويوم ميلاده هو 3 ديسمبر). هذا التقييم السياقي يتفوق على فاحصات القوة التقليدية القائمة على القواعد، مما يعالج RQ2 بشكل إيجابي.

4. المنهجية التجريبية والنتائج

4.1. الإعداد التجريبي

اشتملت الدراسة على 100 مستخدم حقيقي. أعاد الباحثون بناء ملفاتهم الشخصية العامة من الشبكات الاجتماعية. تم اختبار مسارين رئيسيين:

كلمات المرور المولدة بواسطة نماذج اللغة الكبيرة: تم إعطاء نماذج اللغة الكبيرة ملفات تعريف المستخدمين وتوجيهها لتوليد كلمات مرور "قوية لكن سهلة التذكر".
كلمات المرور المقيمة بواسطة نماذج اللغة الكبيرة: تم إعطاء نماذج اللغة الكبيرة ملف تعريف مستخدم ومجموعة من كلمات المرور المرشحة (بما في ذلك الكلمات الضعيفة المشتقة من الملف الشخصي) لترتيب أو تسجيل قوتها.

تمت مقارنة هذه النتائج مع تقييمات الوحدة القائمة على المقاييس في SODA ADVANCE.

4.2. النتائج الرئيسية

نجاح توليد نماذج اللغة الكبيرة

مرتفع

ولدت نماذج اللغة الكبيرة باستمرار كلمات مرور كانت قوية (إنتروبيا عالية) ومخصصة سياقيًا للمستخدم.

دقة التقييم

متفوق مع السياق

تفوقت نماذج اللغة الكبيرة على المقاييس التقليدية في تحديد كلمات المرور الضعيفة دلاليًا عند تزويدها ببيانات ملف تعريف المستخدم.

تأثير الشبكات المتعددة (RQ3)

كبير

أدت ثراء وتكرار البيانات عبر منصات متعددة (فيسبوك، لينكد إن، إنستغرام) إلى تحسين دقة إعادة بناء SODA ADVANCE وفعالية التوليد/التقييم القائم على نماذج اللغة الكبيرة بشكل كبير.

أظهرت التجارب أن التوافر العام للمعلومات الشخصية يعمل كـ معزز للقوة لكل من أدوات الدفاع والمهاجمين المحتملين الذين يستخدمون نهجًا مدعومًا بالذكاء الاصطناعي.

5. التحليل الفني والإطار

5.1. الصياغة الرياضية

يتم تصور مقياس قوة كلمة المرور التراكمية (CPS) الجديد على أنه تجميع مرجح للنتائج المعيارية من المقاييس الفردية. بينما لم يتم تفصيل الصيغة الدقيقة في المقتطف، يمكن استنتاجها على النحو التالي:

$CPS = 1 - \frac{1}{N} \sum_{i=1}^{N} w_i \cdot S_i$

حيث:

$N$ هو عدد المقاييس الأساسية (مثل CUPP, LEET, COVERAGE, FORCE).
$S_i$ هي النتيجة المعيارية للمقياس $i$ (غالبًا حيث تشير 1 إلى مخاطر/نقاط ضعف عالية).
$w_i$ هو الوزن المخصص للمقياس $i$، مع $\sum w_i = 1$.

تشير نتيجة CPS الأقرب إلى 1 إلى كلمة مرور أقوى. يمكن نمذجة مقياس LEET نفسه. إذا كانت $L$ هي مجموعة تحويلات الليت (مثل {'a': ['@','4'], 'e': ['3']...})، و $P$ هي كلمة المرور، فإن درجة تحويل الليت $\ell$ يمكن أن تكون:

$\ell(P) = \frac{\text{عدد الأحرف في } P \text{ التي تم تطبيق استبدال ليت عليها}}{\text{طول } P}$

تشير قيمة $\ell(P)$ العالية إلى أن كلمة المرور قد تكون مجرد تحوير بسيط لكلمة من القاموس.

5.2. مثال على إطار التحليل

دراسة حالة: تقييم "GeorgeCali1023"

المدخلات:

كلمة المرور: "GeorgeCali1023"
ملف التعريف المعاد بناؤه: {الاسم: "George"، اللقب: "Smith"، التعليم: "University of California"، تاريخ الميلاد: "1994-01-23"، المدينة: "Cagliari"}

تطبيق الإطار:

CUPP: يتحقق من "George"، "Smith"، "California"، "Cal". "Cali" تطابق مباشر للاختصار الشائع لـ California. النتيجة: مخاطر عالية (مثل 0.8).
LEET: لا توجد استبدالات للأحرف (a→@, i→1، إلخ). النتيجة: تحويل منخفض (مثل 0.1).
COVERAGE: الرموز "George" و "Cali" (من California) مأخوذة مباشرة من ملف التعريف. يمكن اشتقاق "1023" من شهر/يوم الميلاد (23 يناير -> 1/23). تغطية عالية. النتيجة: مخاطر عالية (مثل 0.9).
FORCE: الطول 13، مزيج من أحرف كبيرة/صغيرة/أرقام. الإنتروبيا مرتفعة بشكل معقول من الناحية الصرفية البحتة. النتيجة: قوة متوسطة (مثل 0.4 خطر).
التقييم الدلالي بنماذج اللغة الكبيرة: التوجيه: "ما مدى قوة كلمة المرور 'GeorgeCali1023' لمستخدم اسمه George Smith التحق بـ University of California وولد في 23 يناير 1994؟" مخرج نموذج اللغة الكبيرة: "ضعيفة. إنها تستخدم اسم المستخدم مباشرة، واختصارًا لجامعته، وعلى الأرجح شهر ويوم ميلاده. يمكن تخمينها بسهولة من البيانات العامة."

الخلاصة: بينما تشير الإنتروبيا التقليدية (FORCE) إلى قوة متوسطة، فإن المقاييس السياقية (CUPP, COVERAGE) وتقييم نموذج اللغة الكبيرة تصنفها على أنها ضعيفة بشكل حرج بسبب ارتباطها الدلالي العالي بالبيانات الشخصية العامة. هذا يوضح الفرضية الأساسية للورقة البحثية.

6. منظور المحلل النقدي

الفكرة الأساسية: تنجح الورقة البحثية في ترسيخ حقيقة مرعبة وحتمية: لقد انتهى عصر تقييم كلمات المرور في فراغ سياقي. كلمة المرور "القوية" الخاصة بك تكون قوية فقط بقوة أضعف رابط في بصمتك الرقمية العامة. يضفي SODA ADVANCE الطابع الرسمي على هذا التهديد، لكن المُغير الحقيقي للعبة هو إثبات أن نماذج اللغة الكبيرة لا تقتصر على أتمتة الاختراق - بل تفهمه. وهذا ينقل سطح الهجوم من الحساب القائم على القوة الغاشمة إلى الاستدلال الدلالي، وهو نموذج أكثر كفاءة وخطورة.

التسلسل المنطقي: الحجة مقنعة: 1) البيانات الشخصية عامة (حقيقة)، 2) تُشتق كلمات المرور من البيانات الشخصية (حقيقة)، 3) لذلك، يمكن للبيانات العامة اختراق كلمات المرور (أثبتته أدوات مثل SODA). 4) نماذج اللغة الكبيرة ماهرة للغاية في معالجة وتوليد اللغة، بما في ذلك البيانات الشخصية وأنماط كلمات المرور. 5) وبالتالي، نماذج اللغة الكبيرة هي التكنولوجيا ذات الاستخدام المزدوج الأمثل في هذا المجال. يتحقق البحث من هذا التسلسل بدقة باستخدام بيانات تجريبية.

نقاط القوة والضعف:

نقطة القوة: نمذجة التهديدات الاستباقية. الورقة البحثية لا توثق نقطة ضعف فحسب؛ بل تنمذج أداة الهجوم للجيل التالي (مدعومة بالذكاء الاصطناعي، واعية بالسياق) قبل أن تصبح سائدة. هذا لا يقدر بثمن للدفاع.
نقطة القوة: التحقق العملي. استخدام 100 مستخدم حقيقي يرسخ البحث في الواقع، وليس في النظرية.
نقطة الضعف: غموض نماذج اللغة الكبيرة. تعامل الورقة البحثية مع نماذج اللغة الكبيرة كصندوق أسود. لماذا اعتبر نموذج اللغة الكبيرة كلمة مرور ما ضعيفة؟ بدون قابلية التفسير، من الصعب الوثوق الكامل بهذا أو دمجه في الأنظمة الآلية. قارن هذا مع المقاييس القابلة للتفسير، وإن كانت أبسط، مثل CUPP أو COVERAGE.
نقطة ضعف كبيرة: نقطة عمى أخلاقية وتنافسية. تذكر الورقة البحثية التهديد بإيجاز لكنها لا تتناول سباق التسلح الهائل الذي تشير إليه. إذا استطاع الباحثون فعل هذا، فيمكن للجهات الخبيثة فعل ذلك أيضًا - وربما على نطاق واسع. أين المقترحات للتخفيف أو الاعتبارات التنظيمية لمتجه التهديد الجديد هذا؟

رؤى قابلة للتنفيذ:

لفرق الأمن: قللوا فورًا من أولوية عدادات قوة كلمات المرور التقليدية. استثمروا في أو طوروا أدوات تقوم بإعادة بناء مشابهة لـ SODA للبيانات العامة لمديريكم وموظفيكم الرئيسيين لمراجعة بيانات اعتمادهم.
لمديري كلمات المرور ومزودي البرمجيات كخدمة: ادمجوا فحص القوة السياقي. يجب أن يحذر مدير كلمات المرور: "كلمة المرور هذه قوية، لكننا وجدنا اسم قطتك 'Whiskers' وسنة ميلادك '1988' على حساب الإنستغرام العام الخاص بك. فكر في تغييرها."
للباحثين: الخطوة التالية العاجلة هي تصلب نماذج اللغة الكبيرة ضد الهجمات. هل يمكننا تدريب أو توجيه نماذج اللغة الكبيرة لتوليد كلمات مرور تقاوم قدراتها التحليلية الخاصة؟ هذا يشبه شبكات الخصومة التوليدية (GANs) المستخدمة في توليد الصور، حيث يتنافس المولد والمميز. يمكن أن يكون "GAN لكلمات المرور" دفاعًا رائدًا.
للجميع: هذا هو المسمار الأخير في نعش كلمات المرور كعامل مصادقة وحيد. الاستنتاج غير المعلن للورقة البحثية يصرخ بضرورة اعتماد تسريع لتقنيات المصادقة متعددة العوامل المقاومة لتصيد الهوية (WebAuthn/FIDO2) والتقنيات الخالية من كلمات المرور.

بحث Atzori وزملاؤه هو نداء إيقاظ حاسم. لا يتعلق الأمر فقط بفحوصات كلمات مرور أفضل؛ بل يتعلق بإدراك أن الذكاء الاصطناعي قد غير بشكل جذري مشهد الأمن السيبراني، مما جعل عاداتنا وأدواتنا القديمة بالية وخطيرة.

7. التطبيقات المستقبلية والاتجاهات

تمتد آثار هذا البحث إلى ما هو أبعد من الاهتمام الأكاديمي:

تدقيق أمني استباقي للشركات: يمكن للشركات نشر أدوات مشابهة لـ SODA ADVANCE داخليًا لمراجعة ممارسات كلمات مرور الموظفين مقابل بصماتهم الرقمية المهنية (لينكد إن، السير الذاتية للشركة)، مما يخفف من مخاطر التهديدات الداخلية والتصيد المستهدف.
الدمج مع أنظمة إدارة الهوية والوصول (IAM): يمكن أن تتضمن أنظمة IAM المستقبلية وحدة سلبية مستمرة تراقب التغييرات في بيانات الموظفين العامة على وسائل التواصل الاجتماعي وتطلق إعادة تعيين إلزامي لكلمة المرور إذا تم اكتشاف ارتباط عالي الخطورة.
توليد كلمات مرور مدعوم بالذكاء الاصطناعي مع الحفاظ على الخصوصية: التطور التالي هو نماذج اللغة الكبيرة على الجهاز (مثل نماذج Apple على الجهاز) التي تولد كلمات مرور قوية بدون إرسال البيانات الشخصية إلى السحابة، مما يجمع بين قوة الذكاء الاصطناعي وخصوصية المستخدم. يمكن أن يكون البحث في التعلم الموحد لنماذج اللغة الكبيرة، كما يستكشفه معاهد مثل Google AI، قابلاً للتطبيق مباشرة هنا.
توحيد مقاييس كلمات المرور السياقية: يمكن أن يتطور مقياس CPS أو خلفاؤه ليصبح معيارًا جديدًا (أبعد من إرشادات NIST) للبيئات عالية الأمان، مما يفرض إجراء فحوصات ضد المعلومات المتاحة للعموم.
محو الأمية الرقمية والتعليم على الخصوصية: يوفر هذا البحث أمثلة ملموسة ومرعبة لتثقيف الجمهور. إظهار كيف يمكن لبضعة منشورات على وسائل التواصل الاجتماعي اختراق كلمة مرور هو رادع قوي ضد الإفراط في المشاركة.
أدوات الطب الشرعي والتحقيق: يمكن لإنفاذ القانون والمخترقين الأخلاقيين استخدام هذه التقنيات في التحقيقات الجنائية للوصول إلى الأجهزة أو الحسابات المؤمنة حيث تفشل الطرق التقليدية، مما يثير أسئلة أخلاقية وقانونية مهمة تحتاج إلى تطوير موازٍ.

يشكل تقارب أدوات الاستخبارات من المصادر المفتوحة (OSINT)، وتقنيات إعادة بناء البيانات، والذكاء الاصطناعي التوليدي حدودًا جديدة في مجال الأمن. لا يكمن المستقبل في إنشاء كلمات مرور أكثر تعقيدًا، بل في تطوير أنظمة ذكية تفهم وتدافع ضد الروابط الدلالية التي نسرّبها حتمًا عبر الإنترنت.

8. المراجع

Atzori, M., Calò, E., Caruccio, L., Cirillo, S., Polese, G., & Solimando, G. (2025). Password Strength Analysis Through Social Network Data Exposure: A Combined Approach Relying on Data Reconstruction and Generative Models. SEBD 2025 Proceedings.
المؤلفون. (السنة). SODA: أداة إعادة بناء البيانات. المؤتمر أو المجلة ذات الصلة. (المرجع [2] في PDF).
المؤلفون. (السنة). حول إعادة بناء البيانات والسياق الدلالي. النشر ذو الصلة. (المرجع [3] في PDF).
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems (NeurIPS). (مصدر خارجي حول GANs).
المؤلفون. (السنة). مقياس قوة كلمة المرور FORCE. النشر ذو الصلة. (المرجع [5] في PDF).
المؤلفون. (السنة). تحليل تحويل لغة الليت. النشر ذو الصلة. (المرجع [6] في PDF).
المؤلفون. (السنة). مقياس التغطية COVERAGE لكلمات المرور. النشر ذو الصلة. (المرجع [7] في PDF).
المعهد الوطني للمعايير والتكنولوجيا (NIST). (2017). إرشادات الهوية الرقمية (SP 800-63B). https://pages.nist.gov/800-63-3/sp800-63b.html (مصدر خارجي موثوق حول المصادقة).
المؤلفون. (السنة). CUPP - مُشكّل كلمات مرور المستخدم الشائعة. النشر ذو الصلة. (المرجع [9] في PDF).
Google AI. (2023). التعلم الموحد والتحليلات. https://ai.google/research/teams/federated-learning (مصدر خارجي حول الذكاء الاصطناعي الحافظ للخصوصية).