1. مقدمه
رمزهای عبور همچنان خط اصلی دفاع در برابر دسترسی غیرمجاز هستند، با این حال رفتار کاربران اغلب بر قابلیت بهخاطر سپردن آسان به جای امنیت اولویت میدهد. بررسیکنندههای سنتی قدرت رمز عبور بر قواعد دستوری ایستا (مانند طول، انواع کاراکتر) متکی هستند و انتخاب کاربران را در نظر نمیگیرند.زمینه معناییکاربران اغلب رمزهای عبور را از اطلاعات شخصی (مانند نام، تاریخ تولد، علایق) مشتق میکنند، اطلاعاتی که امروزه عمدتاً در پلتفرمهای رسانههای اجتماعی به صورت عمومی در دسترس هستند.
این مقاله معرفی میکندSODA ADVANCE، که یک ابزار بازسازی داده است و با گسترش یک ماژول، از دادههای شبکههای اجتماعی در دسترس عموم برای ارزیابی قدرت رمز عبور استفاده میکند. علاوه بر این، این مقاله نقش دوگانهمدلهای زبانی بزرگرا بررسی میکند: به عنوان یک دارایی بالقوه برای تولید رمزهای عبور قدرتمند و شخصیسازی شده و ارزیابی امنیت، و همچنین به عنوان یک تهدید عمده در صورت سوءاستفاده برای شکستن رمز عبور.
این پژوهش حول سه سؤال کلیدی میچرخد: آیا مدلهای زبانی بزرگ میتوانند بر اساس دادههای عمومی، رمزهای عبور پیچیده اما به خاطر سپردنی تولید کنند؟ آیا آنها میتوانند با در نظر گرفتن اطلاعات شخصی، قدرت رمز عبور را به طور مؤثر ارزیابی کنند؟ انتشار داده در چندین شبکه چگونه بر این قابلیتها تأثیر میگذارد؟
2. چارچوب SODA ADVANCE
SODA ADVANCE نسخه تکاملیافته ابزار SODA است که به طور خاص برای ارزیابی آسیبپذیری رمز عبور با بازسازی ردپای دیجیتال کاربران از منابع عمومی طراحی شده است.
2.1. معماری و ماژولهای هسته
معماری این چارچوب (همانطور که در شکل 1 فایل PDF نشان داده شده است) شامل چندین ماژول یکپارچه است:
- تجمیع دادهها:خزندههای وب و ابزارهای استخراج داده، اطلاعات در دسترس عموم کاربران (اطلاعات پروفایل، پستها، عکسها) را از چندین شبکه اجتماعی جمعآوری میکنند.
- بازسازی و ادغام دادهها:اطلاعات از منابع مختلف ادغام میشوند تا یک پروفایل جامع از کاربر ساخته شود. فناوریهایی مانند تشخیص چهره میتوانند عکسهای پروفایل را با هویتهای دیگر مرتبط کنند.
- ماژول قدرت رمز عبور:ماژول تحلیل هستهای، رمز عبز ورودی و پروفایل بازسازیشده کاربر را دریافت کرده و با استفاده از معیارهای متعدد، قدرت آن را ارزیابی میکند.
شرح نمودار (مرور شکل ۱):این نمودار یک فرآیند را نشان میدهد که با جمعآوری دادهها از شبکههای اجتماعی (خزنده/اسکراپر وب) آغاز شده و به یک ماژول ادغام (تشخیص چهره، ادغام دادهها) منتهی میشود. پروفایل بازسازیشده (شامل نام، نام خانوادگی، شهر و غیره) و یک رمز عبور ورودی به یک ماژول تجمیع ارسال میشوند. این ماژول معیارهایی (CUPP, LEET, COVERAGE, FORCE, CPS) را محاسبه کرده و یک امتیاز قدرت خروجی میدهد که توسط یک ترازو که به سمت "بله" یا "خیر" متمایل است، به صورت بصری نمایش داده میشود.
2.2. معیارهای سنجش قدرت رمز عبور
SODA ADVANCE چندین معیار ثابت شده را اتخاذ و گسترش میدهد:
- CUPP (Common User Password Profiler):بررسی میکند که آیا رمز عبور در فرهنگهای واژگان یا الگوهای رایج مرتبط با کاربر ظاهر میشود یا خیر (اگر رایج باشد امتیاز ۱، در غیر این صورت کمتر).
- تبدیل Leet:ارزیابی مقاومت در برابر جایگزینی کاراکترهای ساده (مثلاً a→@، e→3). نمره پایین نشاندهنده درجه بالاتر تبدیل Leet است و حاکی از تلاش برای مخفیسازی یک کلمه پایه ضعیف میباشد.
- COVERAGE (پوشش):سنجش نسبت دادههای شخصی بازسازیشده کاربر (توکنها) که در رمز عبور گنجانده شدهاند. پوشش بالا نامطلوب است.
- FORCE (قدرت رمز عبور):یک معیار ترکیبی که زمان شکستن رمز را بر اساس طول، مجموعه کاراکترها و آنتروپی تخمین میزند.
این مقاله یک روش نوآورانهقدرت رمز عبور تجمعیشاخص متریک که امتیازات روشهای فوق را در یک شاخص قدرت واحد و جامع تجمیع میکند.
3. مدلهای زبانی بزرگ: نقش دوگانه در امنیت رمز عبور
این پژوهش معتقد است که مدلهای زبانی بزرگ مانند GPT-4 نشاندهنده یک تغییر پارادایم هستند، هم به عنوان ابزاری قدرتمند برای دفاع و هم به عنوان سلاحی برای حمله.
3.1. مدلهای زبانی بزرگ برای تولید رمز عبور
هنگامی که دادههای پروفایل عمومی کاربر وارد میشود، مدلهای زبانی بزرگ میتوانند رمزهای عبوری با ویژگیهای زیر تولید کنند:
- قدرت بالا:شامل آنتروپی بالا، طول و تنوع کاراکتر.
- شخصیسازی شده و به یاد ماندنی:میتواند بر اساس علایق کاربر رمز عبور ایجاد کند (مثلاً برای کاربری به نام جورج که پرتقال دوست دارد و در مورد سیستمها مطالعه کرده است، رمز "OrangeSystem23" را تولید کند)، که به خاطر سپردن آن را نسبت به رشتههای تصادفی آسانتر میسازد.
- آگاه از زمینه:در صورت دستور، میتوانند از تلههای آشکار دادههای شخصی اجتناب کنند.
این قابلیت به طور قطعی به اولین سوال پژوهشی پاسخ میدهد، اما همزمان تهدیدی را نیز برجسته میسازد: مهاجمان میتوانند از همان فناوری برای تولید حدسهای رمز عبور با احتمال بالا استفاده کنند.
3.2. مدلهای زبانی بزرگ برای ارزیابی رمز عبور
علاوه بر تولید، میتوان مدلهای زبانی بزرگ را بر اساس پروفایل کاربر راهنمایی کرد تاارزیابی کنند.قدرت رمز عبور دادهشده را ارزیابی میکند. آنها میتوانند استدلال معنایی انجام دهند و ارتباطات غیرآشکار را شناسایی کنند (به عنوان مثال، "Orange123" ممکن است برای کاربری که تیم بسکتبال مورد علاقهاش اورلاندو مجیک و تاریخ تولدش 12 مارس است، ضعیف باشد). این ارزیابی بافتمحور فراتر از بررسیکنندههای سنتی مبتنی بر قاعده میرود و به طور مثبت به سوال تحقیقاتی دوم پاسخ میدهد.
4. روششناسی و نتایج آزمایش
4.1. تنظیمات آزمایش
این مطالعه شامل100 کاربر واقعیبود. محققان پروفایل عمومی آنها را از شبکههای اجتماعی بازسازی کردند. دو گردش کار اصلی آزمایش شد:
- رمزهای عبور تولیدشده توسط مدل زبانی بزرگ:ارائه پروفایل کاربر به مدل زبانی بزرگ و درخواست از آن برای تولید رمزهای عبور "قوی اما به یاد ماندنی".
- رمزهای عبور ارزیابی شده توسط مدل زبانی بزرگ.ارائه پروفایل کاربر و مجموعهای از رمزهای عبور کاندید (شامل رمزهای ضعیف مشتق شده از پروفایل) به مدل زبانی بزرگ و درخواست از آن برای رتبهبندی یا امتیازدهی به استحکام رمزها.
این نتایج با نتایج ارزیابی ماژول مبتنی بر معیارهای SODA ADVANCE مقایسه شدند.
4.2. یافتههای اصلی
نرخ موفقیت تولید مدل زبانی بزرگ.
高
مدل زبانی بزرگ به طور مداوم رمزهای عبوری تولید کرد که هم از استحکام بالا (آنتروپی بالا) برخوردار بودند و هم از نظر زمینهای برای کاربر شخصیسازی شده بودند.
ارزیابی دقت
بهتر در هنگام ترکیب با زمینه
با ارائه دادههای پروفایل کاربر، مدلهای زبانی بزرگ در شناسایی گذرواژههای ضعیف از نظر معنایی بهتر از معیارهای سنتی عمل میکنند.
تأثیر چند شبکهای
قابل توجه
غنای داده و افزونگی در چندین پلتفرم (Facebook, LinkedIn, Instagram) دقت بازسازی SODA ADVANCE و اثربخشی تولید/ارزیابی مبتنی بر مدل زبانی بزرگ را به میزان قابل توجهی افزایش میدهد.
آزمایشها نشان میدهند که در دسترس بودن عمومی اطلاعات شخصی، هم برای ابزارهای دفاعی و هم برای مهاجمان بالقوه که ممکن است از روشهای مشابه مبتنی بر هوش مصنوعی استفاده کنند، به عنوان یکضریب افزایش قدرتعمل میکند.
5. تحلیل و چارچوب فنی
5.1. صورتبندی ریاضی
جدیدقدرت رمز عبور تجمعیمعیار سنجش به عنوان یک تجمیع وزنی از نمرههای نرمالشده معیارهای فردی مفهومسازی شده است. اگرچه استخراج متن جزئیات فرمول دقیق را شرح نمیدهد، اما میتوان آن را اینگونه استنباط کرد:
$CPS = 1 - \frac{1}{N} \sum_{i=1}^{N} w_i \cdot S_i$
که در آن:
- $N$ تعداد معیارهای اندازهگیری پایه است (به عنوان مثال، CUPP، LEET، COVERAGE، FORCE).
- $S_i$ امتیاز نرمالشده معیار $i$ است (معمولاً 1 نشاندهنده ریسک/آسیبپذیری بالا است).
- $w_i$ وزن اختصاصیافته به معیار $i$ است، به طوری که $\sum w_i = 1$.
نمره CPS نزدیک به 1 نشاندهنده رمز عبور قویتر است. معیار LEET خود میتواند مدلسازی شود. اگر $L$ مجموعه تبدیل Leet باشد (مثلاً، {'a': ['@','4'], 'e': ['3']...}) و $P$ رمز عبور باشد، آنگاه درجه تبدیل Leet $\ell$ میتواند به صورت زیر باشد:
$\ell(P) = \frac{\text{تعداد کاراکترهای رمز عبور } P \text{ که جایگزینی Leet روی آنها اعمال شده است}}{\text{طول رمز عبور } P}$
$\ell(P)$ بالاتر نشان میدهد که رمز عبور ممکن است صرفاً یک تحریف ساده از یک کلمه واژهنامه باشد.
5.2. نمونهای از چارچوب تحلیلی
مطالعه موردی: ارزیابی "GeorgeCali1023"
ورودی:
- رمز عبور:"GeorgeCali1023"
- پروفایل بازسازیشده: {نام: "George", نام خانوادگی: "Smith", تحصیلات: "دانشگاه کالیفرنیا", تاریخ تولد: "1994-01-23", شهر: "کالیاری"}
کاربرد چارچوب:
- CUPP:بررسی تطابق مستقیم "George"، "Smith"، "California"، "Cal". "Cali" یک مخفف رایج برای "California" است.امتیاز: ریسک بالا (مثلاً، 0.8)。
- LEET:بدون جایگزینی کاراکتر (a→@، i→1 و غیره).امتیاز: درجه تبدیل پایین (مثلاً، 0.1)。
- پوشش:令牌“George”和“Cali”(来自 California)直接来自画像。“1023”可能衍生自出生月/日(1月23日 -> 1/23)。高覆盖率。امتیاز: ریسک بالا (مثلاً، 0.9)。
- قدرت:طول ۱۳، ترکیبی از حروف بزرگ و کوچک و اعداد. از نظر صرفاً دستوری، آنتروپی نسبتاً بالایی دارد.امتیاز: قدرت متوسط (مثلاً، 0.4 ریسک)。
- ارزیابی معنایی مدل زبانی بزرگ:اعلان: "برای کاربری به نام جورج اسمیت که در دانشگاه کالیفرنیا تحصیل کرده و در ۲۳ ژانویه ۱۹۹۴ متولد شده است، قدرت رمز عبور 'GeorgeCali1023' چگونه است؟" خروجی مدل زبانی بزرگ: "ضعیف. این رمز به طور مستقیم از نام کاربر، مخفف دانشگاه او و احتمالاً ماه و روز تولدش استفاده میکند. به راحتی از دادههای عمومی قابل حدس است."
نتیجهگیری:اگرچه آنتروپی سنتی (FORCE) قدرت متوسطی را نشان میدهد، اما معیارهای مبتنی بر بافت (CUPP, COVERAGE) و ارزیابی مدل زبانی بزرگ آن را به عنوانبسیار آسیبپذیرعلامتگذاری میکنند، زیرا ارتباط معنایی بالایی با دادههای شخصی عمومی دارد. این موضوع هسته اصلی استدلال این مقاله را نشان میدهد.
6. دیدگاه تحلیلگر انتقادی
بینشهای کلیدی:این مقاله با موفقیت بر یک واقعیت هولناک و اجتنابناپذیر تأکید میکند: دوران ارزیابی رمزهای عبور در خلاء بافتاری به پایان رسیده است. رمز عبور «قوی» شما تنها به اندازه ضعیفترین حلقه در ردپای دیجیتال عمومی شما قوی است. SODA ADVANCE این تهدید را صورتبندی کرده، اما تغییردهنده واقعی بازی این است که ثابت شده مدلهای زبانی بزرگ صرفاً فرآیند شکستن را خودکار نمیکنند – آنهادرکاین فرآیند را میکنند. این امر سطح حمله را از محاسبات brute force به استدلال معنایی منتقل میکند، که پارادایم کارآمدتر و خطرناکتری است.
منطق استدلال:استدلال قانعکننده است: 1) دادههای شخصی عمومی هستند (واقعیت)، 2) رمزهای عبور از دادههای شخصی نشأت میگیرند (واقعیت)، 3) بنابراین، دادههای عمومی میتوانند رمزهای عبور را بشکنند (توسط ابزارهایی مانند SODA تأیید شده). 4) مدلهای زبانی بزرگ در پردازش و تولید زبان، از جمله دادههای شخصی و الگوهای رمز عبور، بسیار ماهرند. 5) بنابراین، مدلهای زبانی بزرگ فناوری نهایی دو منظوره در این حوزه هستند. این مطالعه این منطق را به وضوح با دادههای تجربی تأیید میکند.
نقاط قوت و ضعف:
- نقاط قوت:مدلسازی تهدید پیشگیرانه. این مقاله صرفاً ثبت یک آسیبپذیری نیست؛ بلکه مدلسازی نسل بعدی ابزارهای حمله (هوشمصنوعیمحور، بافتارآگاه) پیش از جریان اصلی شدن آنها است. این برای دفاع بیقیمت است.
- نقاط قوت:اعتبارسنجی عملی. استفاده از 100 کاربر واقعی، مطالعه را بر اساس واقعیتها و نه تئوریها بنا نهاد.
- نقاط ضعف:عدم شفافیت مدلهای زبانی بزرگ. در این مقاله، مدلهای زبانی بزرگ به عنوان جعبه سیاه در نظر گرفته شدهاند.چرامدل زبانی بزرگ یک رمز عبور را ضعیف میداند؟ بدون قابلیت تفسیر، اعتماد کامل یا ادغام آن در سیستمهای خودکار دشوار است. این در تضاد با معیارهای قابل تفسیر (اگرچه سادهتر) مانند CUPP یا COVERAGE است.
- نقص عمده:کور اخلاقی و تهاجمی. مقاله به طور خلاصه به تهدیدات اشاره کرده اما پاسخی به مسابقه تسلیحاتی عظیمی که اشاره میکند نداده است. اگر محققان بتوانند این کار را انجام دهند، بازیگران مخرب نیز میتوانند – و احتمالاً در مقیاسی بزرگتر. هیچ راهحل کاهشی یا ملاحظات نظارتی برای این بردار تهدید جدید ارائه نشده است.
بینشهای عملی:
- برای تیمهای امنیتی:فوراً اولویت بررسیکنندههای سنتی قدرت رمز عبور را کاهش دهید. در ابزارهایی سرمایهگذاری یا توسعه دهید که بتوانند دادههای عمومی مدیران ارشد و کارکنان کلیدی را بهصورت SODA بازسازی کنند تا اعتبارنامههای آنها را حسابرسی نمایند.
- برای ارائهدهندگان مدیریت رمز عبور و SaaS:بررسی قدرت مبتنی بر زمینه را یکپارچه کنید. مدیر رمز عبور باید هشدار دهد: «این رمز عبور از قدرت بالایی برخوردار است، اما ما نام گربه شما 'Whiskers' و سال تولد '1988' را در اینستاگرام عمومی شما یافتهایم. لطفاً تغییر آن را در نظر بگیرید.»
- برای پژوهشگران:گام فوری بعدیتقویت مدلهای زبانی بزرگ متخاصم. آیا میتوانیم مدلهای زبانی بزرگ را آموزش دهیم یا راهنمایی کنیم تا بتوانندمقاومترمزی که توانایی تحلیل خود را دارد؟ این مشابه شبکههای مولد تخاصمی است که در تولید تصویر استفاده میشود، جایی که مولد و ممیز با یکدیگر رقابت میکنند. "رمز GAN" میتواند یک روش دفاعی انقلابی باشد.
- برای همه:این آخرین میخ تابوت رمز بهعنوان تنها عامل احراز هویت است. نتیجهگیری ضمنی این مقاله، درخواستی قوی برای تسریع در پذیرش احراز هویت چندعاملی ضد فیشینگ (WebAuthn/FIDO2) و فناوریهای بدون رمز عبور است.
تحقیق Atzori و همکاران یک زنگ هشدار حیاتی است. این فقط در مورد بررسیکنندههای رمز بهتر نیست؛ بلکه درباره درک این است که هوش مصنوعی اساساً چشمانداز امنیت سایبری را تغییر داده و عادات و ابزارهای گذشته ما را به طور خطرناکی منسوخ کرده است.
7. کاربردها و جهتگیریهای آینده
پیامدهای این مطالعه فراتر از علاقهی صرفاً آکادمیک است:
- حسابرسی امنیتی سازمانی پیشگیرانه:سازمانها میتوانند ابزارهایی مانند SODA ADVANCE را بهصورت داخلی مستقر کنند تا با استفاده از ردپای دیجیتال حرفهای کارکنان (مانند LinkedIn و پروفایل شرکت)، شیوههای رمز عبور آنها را حسابرسی کنند و خطر تهدیدات داخلی و فیشینگ هدفمند را کاهش دهند.
- یکپارچهسازی با مدیریت هویت و دسترسی:سیستمهای آینده IAM میتوانند شامل یک ماژول مداوم و غیرفعال باشند که تغییرات در دادههای اجتماعی عمومی کارکنان را نظارت کرده و در صورت شناسایی ارتباطات پرخطر، بازنشانی اجباری رمز عبور را فعال کند.
- تولید رمز عبور مبتنی بر هوش مصنوعی و محافظت از حریم خصوصی:مرحله تکاملی بعدی، مدلهای زبانی بزرگ سمت دستگاه (مانند مدلهای سمت دستگاه اپل) است که میتوانند不رمزهای عبور قوی را بدون ارسال دادههای شخصی به ابر تولید کنند و قدرت هوش مصنوعی را با حریم خصوصی کاربر ترکیب نمایند. تحقیقات یادگیری فدرال مدلهای زبانی بزرگ که توسط نهادهایی مانند Google AI بررسی میشوند، میتوانند مستقیماً در این زمینه به کار روند.
- استانداردسازی معیارهای رمز عبور مبتنی بر زمینه:معیارهای CPS یا نسخههای بعدی آن ممکن است به یک استاندارد جدید در محیطهای امنیتی بالا (فراتر از دستورالعملهای NIST) تبدیل شوند که بررسیهای اجباری بر اساس اطلاعات در دسترس عمومی را الزامی میکنند.
- سواد دیجیتال و آموزش حریم خصوصی:این مطالعه نمونههای مشخص و هشداردهندهای برای آموزش عمومی فراهم میکند. نشان دادن چگونگی شکستن رمز عبور با استفاده از چند پست شبکههای اجتماعی، بازدارندهای قدرتمند در برابر افشای بیش از حد اطلاعات شخصی است.
- ابزارهای پزشکی قانونی و تحقیقات:مقامات اجرای قانون و هکرهای اخلاقی میتوانند از این تکنیکها در تحقیقات پزشکی قانونی برای دسترسی به دستگاهها یا حسابهای امنیتی استفاده کنند که با روشهای سنتی قابل نفوذ نیستند؛ این امر مسائل مهم اخلاقی و قانونی را مطرح میکند که نیازمند توسعهای موازی هستند.
تلفیق ابزارهای اطلاعاتی منبع باز، تکنیکهای بازسازی داده و هوش مصنوعی مولد، نشاندهنده مرز جدیدی در حوزه امنیت است. آینده در ایجاد رمزهای عبور پیچیدهتر نیست، بلکه در توسعه سیستمهای هوشمندی است که بتوانند ارتباطات معنایی را که ما به ناچار به صورت آنلاین افشا میکنیم، درک کرده و در برابر آن دفاع کنند.
8. مراجع
- Atzori, M., Calò, E., Caruccio, L., Cirillo, S., Polese, G., & Solimando, G. (2025). Password Strength Analysis Through Social Network Data Exposure: A Combined Approach Relying on Data Reconstruction and Generative Models. SEBD 2025 Proceedings.
- نویسنده. (سال). SODA: ابزار بازسازی دادهها. کنفرانس یا مجله مرتبط. (مرجع [2] در PDF).
- نویسنده. (سال). درباره بازسازی داده و زمینه معنایی. انتشارات مرتبط. (مرجع [3] در PDF).
- Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems (NeurIPS). (منبع خارجی در مورد GANs).
- نویسنده. (سال). متریک رمز عبور FORCE. انتشارات مرتبط. (منبع [5] در PDF).
- نویسنده. (سال). تحلیل تبدیل LEET speak. انتشارات مرتبط. (منبع [6] در PDF).
- نویسنده. (سال). متریک COVERAGE برای رمزهای عبور. انتشارات مرتبط. (منبع [7] در PDF).
- National Institute of Standards and Technology (NIST). (2017). Digital Identity Guidelines (SP 800-63B). https://pages.nist.gov/800-63-3/sp800-63b.html (منبع معتبر خارجی در مورد احراز هویت).
- نویسنده. (سال). CUPP - Common User Password Profiler. انتشارات مرتبط. (مرجع [9] در PDF).
- Google AI. (2023). Federated Learning and Analytics. https://ai.google/research/teams/federated-learning (منبع خارجی در مورد هوش مصنوعی محافظتکننده از حریم خصوصی).