SODA ADVANCE: تحلیل قدرت رمز عبور مبتنی بر داده‌های شبکه‌های اجتماعی و مدل‌های زبانی بزرگ

1. مقدمه

رمزهای عبور همچنان خط اصلی دفاع در برابر دسترسی غیرمجاز هستند، با این حال رفتار کاربران اغلب بر قابلیت به‌خاطر سپردن آسان به جای امنیت اولویت می‌دهد. بررسی‌کننده‌های سنتی قدرت رمز عبور بر قواعد دستوری ایستا (مانند طول، انواع کاراکتر) متکی هستند و انتخاب کاربران را در نظر نمی‌گیرند.زمینه معناییکاربران اغلب رمزهای عبور را از اطلاعات شخصی (مانند نام، تاریخ تولد، علایق) مشتق می‌کنند، اطلاعاتی که امروزه عمدتاً در پلتفرم‌های رسانه‌های اجتماعی به صورت عمومی در دسترس هستند.

این مقاله معرفی می‌کندSODA ADVANCE، که یک ابزار بازسازی داده است و با گسترش یک ماژول، از داده‌های شبکه‌های اجتماعی در دسترس عموم برای ارزیابی قدرت رمز عبور استفاده می‌کند. علاوه بر این، این مقاله نقش دوگانهمدل‌های زبانی بزرگرا بررسی می‌کند: به عنوان یک دارایی بالقوه برای تولید رمزهای عبور قدرتمند و شخصی‌سازی شده و ارزیابی امنیت، و همچنین به عنوان یک تهدید عمده در صورت سوءاستفاده برای شکستن رمز عبور.

این پژوهش حول سه سؤال کلیدی می‌چرخد: آیا مدل‌های زبانی بزرگ می‌توانند بر اساس داده‌های عمومی، رمزهای عبور پیچیده اما به خاطر سپردنی تولید کنند؟ آیا آن‌ها می‌توانند با در نظر گرفتن اطلاعات شخصی، قدرت رمز عبور را به طور مؤثر ارزیابی کنند؟ انتشار داده در چندین شبکه چگونه بر این قابلیت‌ها تأثیر می‌گذارد؟

2. چارچوب SODA ADVANCE

SODA ADVANCE نسخه تکامل‌یافته ابزار SODA است که به طور خاص برای ارزیابی آسیب‌پذیری رمز عبور با بازسازی ردپای دیجیتال کاربران از منابع عمومی طراحی شده است.

2.1. معماری و ماژول‌های هسته

معماری این چارچوب (همانطور که در شکل 1 فایل PDF نشان داده شده است) شامل چندین ماژول یکپارچه است:

تجمیع داده‌ها:خزنده‌های وب و ابزارهای استخراج داده، اطلاعات در دسترس عموم کاربران (اطلاعات پروفایل، پست‌ها، عکس‌ها) را از چندین شبکه اجتماعی جمع‌آوری می‌کنند.
بازسازی و ادغام داده‌ها:اطلاعات از منابع مختلف ادغام می‌شوند تا یک پروفایل جامع از کاربر ساخته شود. فناوری‌هایی مانند تشخیص چهره می‌توانند عکس‌های پروفایل را با هویت‌های دیگر مرتبط کنند.
ماژول قدرت رمز عبور:ماژول تحلیل هسته‌ای، رمز عبز ورودی و پروفایل بازسازی‌شده کاربر را دریافت کرده و با استفاده از معیارهای متعدد، قدرت آن را ارزیابی می‌کند.

شرح نمودار (مرور شکل ۱):این نمودار یک فرآیند را نشان می‌دهد که با جمع‌آوری داده‌ها از شبکه‌های اجتماعی (خزنده/اسکراپر وب) آغاز شده و به یک ماژول ادغام (تشخیص چهره، ادغام داده‌ها) منتهی می‌شود. پروفایل بازسازی‌شده (شامل نام، نام خانوادگی، شهر و غیره) و یک رمز عبور ورودی به یک ماژول تجمیع ارسال می‌شوند. این ماژول معیارهایی (CUPP, LEET, COVERAGE, FORCE, CPS) را محاسبه کرده و یک امتیاز قدرت خروجی می‌دهد که توسط یک ترازو که به سمت "بله" یا "خیر" متمایل است، به صورت بصری نمایش داده می‌شود.

2.2. معیارهای سنجش قدرت رمز عبور

SODA ADVANCE چندین معیار ثابت شده را اتخاذ و گسترش می‌دهد:

CUPP (Common User Password Profiler):بررسی می‌کند که آیا رمز عبور در فرهنگ‌های واژگان یا الگوهای رایج مرتبط با کاربر ظاهر می‌شود یا خیر (اگر رایج باشد امتیاز ۱، در غیر این صورت کمتر).
تبدیل Leet:ارزیابی مقاومت در برابر جایگزینی کاراکترهای ساده (مثلاً a→@، e→3). نمره پایین نشان‌دهنده درجه بالاتر تبدیل Leet است و حاکی از تلاش برای مخفی‌سازی یک کلمه پایه ضعیف می‌باشد.
COVERAGE (پوشش):سنجش نسبت داده‌های شخصی بازسازی‌شده کاربر (توکن‌ها) که در رمز عبور گنجانده شده‌اند. پوشش بالا نامطلوب است.
FORCE (قدرت رمز عبور):یک معیار ترکیبی که زمان شکستن رمز را بر اساس طول، مجموعه کاراکترها و آنتروپی تخمین می‌زند.

این مقاله یک روش نوآورانهقدرت رمز عبور تجمعیشاخص متریک که امتیازات روش‌های فوق را در یک شاخص قدرت واحد و جامع تجمیع می‌کند.

3. مدل‌های زبانی بزرگ: نقش دوگانه در امنیت رمز عبور

این پژوهش معتقد است که مدل‌های زبانی بزرگ مانند GPT-4 نشان‌دهنده یک تغییر پارادایم هستند، هم به عنوان ابزاری قدرتمند برای دفاع و هم به عنوان سلاحی برای حمله.

3.1. مدل‌های زبانی بزرگ برای تولید رمز عبور

هنگامی که داده‌های پروفایل عمومی کاربر وارد می‌شود، مدل‌های زبانی بزرگ می‌توانند رمزهای عبوری با ویژگی‌های زیر تولید کنند:

قدرت بالا:شامل آنتروپی بالا، طول و تنوع کاراکتر.
شخصی‌سازی شده و به یاد ماندنی:می‌تواند بر اساس علایق کاربر رمز عبور ایجاد کند (مثلاً برای کاربری به نام جورج که پرتقال دوست دارد و در مورد سیستم‌ها مطالعه کرده است، رمز "OrangeSystem23" را تولید کند)، که به خاطر سپردن آن را نسبت به رشته‌های تصادفی آسان‌تر می‌سازد.
آگاه از زمینه:در صورت دستور، می‌توانند از تله‌های آشکار داده‌های شخصی اجتناب کنند.

این قابلیت به طور قطعی به اولین سوال پژوهشی پاسخ می‌دهد، اما همزمان تهدیدی را نیز برجسته می‌سازد: مهاجمان می‌توانند از همان فناوری برای تولید حدس‌های رمز عبور با احتمال بالا استفاده کنند.

3.2. مدل‌های زبانی بزرگ برای ارزیابی رمز عبور

علاوه بر تولید، می‌توان مدل‌های زبانی بزرگ را بر اساس پروفایل کاربر راهنمایی کرد تاارزیابی کنند.قدرت رمز عبور داده‌شده را ارزیابی می‌کند. آنها می‌توانند استدلال معنایی انجام دهند و ارتباطات غیرآشکار را شناسایی کنند (به عنوان مثال، "Orange123" ممکن است برای کاربری که تیم بسکتبال مورد علاقه‌اش اورلاندو مجیک و تاریخ تولدش 12 مارس است، ضعیف باشد). این ارزیابی بافت‌محور فراتر از بررسی‌کننده‌های سنتی مبتنی بر قاعده می‌رود و به طور مثبت به سوال تحقیقاتی دوم پاسخ می‌دهد.

4. روش‌شناسی و نتایج آزمایش

4.1. تنظیمات آزمایش

این مطالعه شامل100 کاربر واقعیبود. محققان پروفایل عمومی آن‌ها را از شبکه‌های اجتماعی بازسازی کردند. دو گردش کار اصلی آزمایش شد:

رمزهای عبور تولیدشده توسط مدل زبانی بزرگ:ارائه پروفایل کاربر به مدل زبانی بزرگ و درخواست از آن برای تولید رمزهای عبور "قوی اما به یاد ماندنی".
رمزهای عبور ارزیابی شده توسط مدل زبانی بزرگ.ارائه پروفایل کاربر و مجموعه‌ای از رمزهای عبور کاندید (شامل رمزهای ضعیف مشتق شده از پروفایل) به مدل زبانی بزرگ و درخواست از آن برای رتبه‌بندی یا امتیازدهی به استحکام رمزها.

این نتایج با نتایج ارزیابی ماژول مبتنی بر معیارهای SODA ADVANCE مقایسه شدند.

4.2. یافته‌های اصلی

نرخ موفقیت تولید مدل زبانی بزرگ.

高

مدل زبانی بزرگ به طور مداوم رمزهای عبوری تولید کرد که هم از استحکام بالا (آنتروپی بالا) برخوردار بودند و هم از نظر زمینه‌ای برای کاربر شخصی‌سازی شده بودند.

ارزیابی دقت

بهتر در هنگام ترکیب با زمینه

با ارائه داده‌های پروفایل کاربر، مدل‌های زبانی بزرگ در شناسایی گذرواژه‌های ضعیف از نظر معنایی بهتر از معیارهای سنتی عمل می‌کنند.

تأثیر چند شبکه‌ای

قابل توجه

غنای داده و افزونگی در چندین پلتفرم (Facebook, LinkedIn, Instagram) دقت بازسازی SODA ADVANCE و اثربخشی تولید/ارزیابی مبتنی بر مدل زبانی بزرگ را به میزان قابل توجهی افزایش می‌دهد.

آزمایش‌ها نشان می‌دهند که در دسترس بودن عمومی اطلاعات شخصی، هم برای ابزارهای دفاعی و هم برای مهاجمان بالقوه که ممکن است از روش‌های مشابه مبتنی بر هوش مصنوعی استفاده کنند، به عنوان یکضریب افزایش قدرتعمل می‌کند.

5. تحلیل و چارچوب فنی

5.1. صورتبندی ریاضی

جدیدقدرت رمز عبور تجمعیمعیار سنجش به عنوان یک تجمیع وزنی از نمره‌های نرمال‌شده معیارهای فردی مفهوم‌سازی شده است. اگرچه استخراج متن جزئیات فرمول دقیق را شرح نمی‌دهد، اما می‌توان آن را اینگونه استنباط کرد:

$CPS = 1 - \frac{1}{N} \sum_{i=1}^{N} w_i \cdot S_i$

که در آن:

$N$ تعداد معیارهای اندازه‌گیری پایه است (به عنوان مثال، CUPP، LEET، COVERAGE، FORCE).
$S_i$ امتیاز نرمال‌شده معیار $i$ است (معمولاً 1 نشان‌دهنده ریسک/آسیب‌پذیری بالا است).
$w_i$ وزن اختصاص‌یافته به معیار $i$ است، به طوری که $\sum w_i = 1$.

نمره CPS نزدیک به 1 نشان‌دهنده رمز عبور قوی‌تر است. معیار LEET خود می‌تواند مدل‌سازی شود. اگر $L$ مجموعه تبدیل Leet باشد (مثلاً، {'a': ['@','4'], 'e': ['3']...}) و $P$ رمز عبور باشد، آنگاه درجه تبدیل Leet $\ell$ می‌تواند به صورت زیر باشد:

$\ell(P) = \frac{\text{تعداد کاراکترهای رمز عبور } P \text{ که جایگزینی Leet روی آن‌ها اعمال شده است}}{\text{طول رمز عبور } P}$

$\ell(P)$ بالاتر نشان می‌دهد که رمز عبور ممکن است صرفاً یک تحریف ساده از یک کلمه واژه‌نامه باشد.

5.2. نمونه‌ای از چارچوب تحلیلی

مطالعه موردی: ارزیابی "GeorgeCali1023"

ورودی:

رمز عبور:"GeorgeCali1023"
پروفایل بازسازی‌شده: {نام: "George", نام خانوادگی: "Smith", تحصیلات: "دانشگاه کالیفرنیا", تاریخ تولد: "1994-01-23", شهر: "کالیاری"}

کاربرد چارچوب:

CUPP:بررسی تطابق مستقیم "George"، "Smith"، "California"، "Cal". "Cali" یک مخفف رایج برای "California" است.امتیاز: ریسک بالا (مثلاً، 0.8)。
LEET:بدون جایگزینی کاراکتر (a→@، i→1 و غیره).امتیاز: درجه تبدیل پایین (مثلاً، 0.1)。
پوشش:令牌“George”和“Cali”（来自 California）直接来自画像。“1023”可能衍生自出生月/日（1月23日 -> 1/23）。高覆盖率。امتیاز: ریسک بالا (مثلاً، 0.9)。
قدرت:طول ۱۳، ترکیبی از حروف بزرگ و کوچک و اعداد. از نظر صرفاً دستوری، آنتروپی نسبتاً بالایی دارد.امتیاز: قدرت متوسط (مثلاً، 0.4 ریسک)。
ارزیابی معنایی مدل زبانی بزرگ:اعلان: "برای کاربری به نام جورج اسمیت که در دانشگاه کالیفرنیا تحصیل کرده و در ۲۳ ژانویه ۱۹۹۴ متولد شده است، قدرت رمز عبور 'GeorgeCali1023' چگونه است؟" خروجی مدل زبانی بزرگ: "ضعیف. این رمز به طور مستقیم از نام کاربر، مخفف دانشگاه او و احتمالاً ماه و روز تولدش استفاده می‌کند. به راحتی از داده‌های عمومی قابل حدس است."

نتیجه‌گیری:اگرچه آنتروپی سنتی (FORCE) قدرت متوسطی را نشان می‌دهد، اما معیارهای مبتنی بر بافت (CUPP, COVERAGE) و ارزیابی مدل زبانی بزرگ آن را به عنوانبسیار آسیب‌پذیرعلامت‌گذاری می‌کنند، زیرا ارتباط معنایی بالایی با داده‌های شخصی عمومی دارد. این موضوع هسته اصلی استدلال این مقاله را نشان می‌دهد.

6. دیدگاه تحلیلگر انتقادی

بینش‌های کلیدی:این مقاله با موفقیت بر یک واقعیت هولناک و اجتناب‌ناپذیر تأکید می‌کند: دوران ارزیابی رمزهای عبور در خلاء بافتاری به پایان رسیده است. رمز عبور «قوی» شما تنها به اندازه ضعیف‌ترین حلقه در ردپای دیجیتال عمومی شما قوی است. SODA ADVANCE این تهدید را صورتبندی کرده، اما تغییردهنده واقعی بازی این است که ثابت شده مدل‌های زبانی بزرگ صرفاً فرآیند شکستن را خودکار نمی‌کنند – آنهادرکاین فرآیند را می‌کنند. این امر سطح حمله را از محاسبات brute force به استدلال معنایی منتقل می‌کند، که پارادایم کارآمدتر و خطرناک‌تری است.

منطق استدلال:استدلال قانع‌کننده است: 1) داده‌های شخصی عمومی هستند (واقعیت)، 2) رمزهای عبور از داده‌های شخصی نشأت می‌گیرند (واقعیت)، 3) بنابراین، داده‌های عمومی می‌توانند رمزهای عبور را بشکنند (توسط ابزارهایی مانند SODA تأیید شده). 4) مدل‌های زبانی بزرگ در پردازش و تولید زبان، از جمله داده‌های شخصی و الگوهای رمز عبور، بسیار ماهرند. 5) بنابراین، مدل‌های زبانی بزرگ فناوری نهایی دو منظوره در این حوزه هستند. این مطالعه این منطق را به وضوح با داده‌های تجربی تأیید می‌کند.

نقاط قوت و ضعف:

نقاط قوت:مدل‌سازی تهدید پیش‌گیرانه. این مقاله صرفاً ثبت یک آسیب‌پذیری نیست؛ بلکه مدل‌سازی نسل بعدی ابزارهای حمله (هوش‌مصنوعی‌محور، بافتارآگاه) پیش از جریان اصلی شدن آنها است. این برای دفاع بی‌قیمت است.
نقاط قوت:اعتبارسنجی عملی. استفاده از 100 کاربر واقعی، مطالعه را بر اساس واقعیت‌ها و نه تئوری‌ها بنا نهاد.
نقاط ضعف:عدم شفافیت مدل‌های زبانی بزرگ. در این مقاله، مدل‌های زبانی بزرگ به عنوان جعبه سیاه در نظر گرفته شده‌اند.چرامدل زبانی بزرگ یک رمز عبور را ضعیف می‌داند؟ بدون قابلیت تفسیر، اعتماد کامل یا ادغام آن در سیستم‌های خودکار دشوار است. این در تضاد با معیارهای قابل تفسیر (اگرچه ساده‌تر) مانند CUPP یا COVERAGE است.
نقص عمده:کور اخلاقی و تهاجمی. مقاله به طور خلاصه به تهدیدات اشاره کرده اما پاسخی به مسابقه تسلیحاتی عظیمی که اشاره می‌کند نداده است. اگر محققان بتوانند این کار را انجام دهند، بازیگران مخرب نیز می‌توانند – و احتمالاً در مقیاسی بزرگتر. هیچ راه‌حل کاهشی یا ملاحظات نظارتی برای این بردار تهدید جدید ارائه نشده است.

بینش‌های عملی:

برای تیم‌های امنیتی:فوراً اولویت بررسی‌کننده‌های سنتی قدرت رمز عبور را کاهش دهید. در ابزارهایی سرمایه‌گذاری یا توسعه دهید که بتوانند داده‌های عمومی مدیران ارشد و کارکنان کلیدی را به‌صورت SODA بازسازی کنند تا اعتبارنامه‌های آن‌ها را حسابرسی نمایند.
برای ارائه‌دهندگان مدیریت رمز عبور و SaaS:بررسی قدرت مبتنی بر زمینه را یکپارچه کنید. مدیر رمز عبور باید هشدار دهد: «این رمز عبور از قدرت بالایی برخوردار است، اما ما نام گربه شما 'Whiskers' و سال تولد '1988' را در اینستاگرام عمومی شما یافته‌ایم. لطفاً تغییر آن را در نظر بگیرید.»
برای پژوهشگران:گام فوری بعدیتقویت مدل‌های زبانی بزرگ متخاصم. آیا می‌توانیم مدل‌های زبانی بزرگ را آموزش دهیم یا راهنمایی کنیم تا بتوانندمقاومترمزی که توانایی تحلیل خود را دارد؟ این مشابه شبکه‌های مولد تخاصمی است که در تولید تصویر استفاده می‌شود، جایی که مولد و ممیز با یکدیگر رقابت می‌کنند. "رمز GAN" می‌تواند یک روش دفاعی انقلابی باشد.
برای همه:این آخرین میخ تابوت رمز به‌عنوان تنها عامل احراز هویت است. نتیجه‌گیری ضمنی این مقاله، درخواستی قوی برای تسریع در پذیرش احراز هویت چندعاملی ضد فیشینگ (WebAuthn/FIDO2) و فناوری‌های بدون رمز عبور است.

تحقیق Atzori و همکاران یک زنگ هشدار حیاتی است. این فقط در مورد بررسی‌کننده‌های رمز بهتر نیست؛ بلکه درباره درک این است که هوش مصنوعی اساساً چشمانداز امنیت سایبری را تغییر داده و عادات و ابزارهای گذشته ما را به طور خطرناکی منسوخ کرده است.

7. کاربردها و جهت‌گیری‌های آینده

پیامدهای این مطالعه فراتر از علاقه‌ی صرفاً آکادمیک است:

حسابرسی امنیتی سازمانی پیش‌گیرانه:سازمان‌ها می‌توانند ابزارهایی مانند SODA ADVANCE را به‌صورت داخلی مستقر کنند تا با استفاده از ردپای دیجیتال حرفه‌ای کارکنان (مانند LinkedIn و پروفایل شرکت)، شیوه‌های رمز عبور آن‌ها را حسابرسی کنند و خطر تهدیدات داخلی و فیشینگ هدفمند را کاهش دهند.
یکپارچه‌سازی با مدیریت هویت و دسترسی:سیستم‌های آینده IAM می‌توانند شامل یک ماژول مداوم و غیرفعال باشند که تغییرات در داده‌های اجتماعی عمومی کارکنان را نظارت کرده و در صورت شناسایی ارتباطات پرخطر، بازنشانی اجباری رمز عبور را فعال کند.
تولید رمز عبور مبتنی بر هوش مصنوعی و محافظت از حریم خصوصی:مرحله تکاملی بعدی، مدل‌های زبانی بزرگ سمت دستگاه (مانند مدل‌های سمت دستگاه اپل) است که می‌توانند不رمزهای عبور قوی را بدون ارسال داده‌های شخصی به ابر تولید کنند و قدرت هوش مصنوعی را با حریم خصوصی کاربر ترکیب نمایند. تحقیقات یادگیری فدرال مدل‌های زبانی بزرگ که توسط نهادهایی مانند Google AI بررسی می‌شوند، می‌توانند مستقیماً در این زمینه به کار روند.
استانداردسازی معیارهای رمز عبور مبتنی بر زمینه:معیارهای CPS یا نسخه‌های بعدی آن ممکن است به یک استاندارد جدید در محیط‌های امنیتی بالا (فراتر از دستورالعمل‌های NIST) تبدیل شوند که بررسی‌های اجباری بر اساس اطلاعات در دسترس عمومی را الزامی می‌کنند.
سواد دیجیتال و آموزش حریم خصوصی:این مطالعه نمونه‌های مشخص و هشداردهنده‌ای برای آموزش عمومی فراهم می‌کند. نشان دادن چگونگی شکستن رمز عبور با استفاده از چند پست شبکه‌های اجتماعی، بازدارنده‌ای قدرتمند در برابر افشای بیش از حد اطلاعات شخصی است.
ابزارهای پزشکی قانونی و تحقیقات:مقامات اجرای قانون و هکرهای اخلاقی می‌توانند از این تکنیک‌ها در تحقیقات پزشکی قانونی برای دسترسی به دستگاه‌ها یا حساب‌های امنیتی استفاده کنند که با روش‌های سنتی قابل نفوذ نیستند؛ این امر مسائل مهم اخلاقی و قانونی را مطرح می‌کند که نیازمند توسعه‌ای موازی هستند.

تلفیق ابزارهای اطلاعاتی منبع باز، تکنیک‌های بازسازی داده و هوش مصنوعی مولد، نشان‌دهنده مرز جدیدی در حوزه امنیت است. آینده در ایجاد رمزهای عبور پیچیده‌تر نیست، بلکه در توسعه سیستم‌های هوشمندی است که بتوانند ارتباطات معنایی را که ما به ناچار به صورت آنلاین افشا می‌کنیم، درک کرده و در برابر آن دفاع کنند.

8. مراجع

Atzori, M., Calò, E., Caruccio, L., Cirillo, S., Polese, G., & Solimando, G. (2025). Password Strength Analysis Through Social Network Data Exposure: A Combined Approach Relying on Data Reconstruction and Generative Models. SEBD 2025 Proceedings.
نویسنده. (سال). SODA: ابزار بازسازی داده‌ها. کنفرانس یا مجله مرتبط. (مرجع [2] در PDF).
نویسنده. (سال). درباره بازسازی داده و زمینه معنایی. انتشارات مرتبط. (مرجع [3] در PDF).
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems (NeurIPS). (منبع خارجی در مورد GANs).
نویسنده. (سال). متریک رمز عبور FORCE. انتشارات مرتبط. (منبع [5] در PDF).
نویسنده. (سال). تحلیل تبدیل LEET speak. انتشارات مرتبط. (منبع [6] در PDF).
نویسنده. (سال). متریک COVERAGE برای رمزهای عبور. انتشارات مرتبط. (منبع [7] در PDF).
National Institute of Standards and Technology (NIST). (2017). Digital Identity Guidelines (SP 800-63B). https://pages.nist.gov/800-63-3/sp800-63b.html (منبع معتبر خارجی در مورد احراز هویت).
نویسنده. (سال). CUPP - Common User Password Profiler. انتشارات مرتبط. (مرجع [9] در PDF).
Google AI. (2023). Federated Learning and Analytics. https://ai.google/research/teams/federated-learning (منبع خارجی در مورد هوش مصنوعی محافظت‌کننده از حریم خصوصی).