SOPG: ऑटोरेग्रेसिव न्यूरल नेटवर्क्स के लिए सर्च-आधारित ऑर्डर्ड पासवर्ड जनरेशन

1. परिचय

सादगी और प्रभावशीलता के बीच संतुलन बनाते हुए, पासवर्ड उपयोगकर्ता प्रमाणीकरण का सर्वव्यापी तरीका बना हुआ है। हालाँकि, आक्रामक सुरक्षा परीक्षण और रक्षात्मक शक्ति मूल्यांकन दोनों में एक महत्वपूर्ण घटक, पासवर्ड अनुमान लगाने के हमलों द्वारा उनकी सुरक्षा लगातार चुनौतीपूर्ण बनी रहती है। नियम-आधारित गणना से लेकर मार्कोव श्रृंखला और PCFG जैसे सांख्यिकीय मॉडल तक, पारंपरिक तरीकों में विविधता और दक्षता की स्वाभाविक सीमाएँ हैं। गहन शिक्षण, विशेष रूप से ऑटोरेग्रेसिव न्यूरल नेटवर्क्स के आगमन ने एक प्रतिमान बदलाव का वादा किया। फिर भी, एक महत्वपूर्ण चूक बनी रही: स्वयं उत्पन्न करने की विधि। मानक नमूनाकरण तकनीकें यादृच्छिकता लाती हैं, जिससे डुप्लिकेट पासवर्ड और एक अव्यवस्थित आउटपुट प्राप्त होता है, जो हमले की दक्षता को काफी कम कर देता है। यह शोध पत्र प्रस्तुत करता है SOPG (Search-Based Ordered Password Generation), एक नवीन विधि जो ऑटोरेग्रेसिव मॉडलों को संभाव्यता के लगभग अवरोही क्रम में पासवर्ड जनरेट करने के लिए प्रेरित करती है, जिससे तंत्रिका नेटवर्क-आधारित पासवर्ड अनुमान की दक्षता में क्रांतिकारी परिवर्तन आता है।

2. Background & Related Work

2.1 पासवर्ड अनुमान का विकास

यह क्षेत्र विभिन्न चरणों से गुजरकर विकसित हुआ है: ह्यूरिस्टिक नियम-आधारित विधियाँ मैनुअल शब्दकोशों और रूपांतरण नियमों (जैसे, John the Ripper नियम) पर निर्भर थीं, जो अनुभव-आधारित थीं और सैद्धांतिक आधार से रहित थीं। 2009 के बाद वास्तविक पासवर्ड लीक के प्रसार ने सक्षम बनाया सांख्यिकीय विधियाँ. मार्कोव मॉडल, जैसा कि इस्तेमाल किया गया OMEN, एक निश्चित-क्रम इतिहास के आधार पर अगले वर्ण का पूर्वानुमान लगाता है, जबकि Probabilistic Context-Free Grammar (PCFG) पासवर्ड को पैटर्न (अल्फा, अंक, प्रतीक) में विभाजित करता है और उनकी संभावनाओं को सीखता है। हालांकि व्यवस्थित, ये मॉडल अक्सर ओवरफिट हो जाते हैं और सामान्यीकरण में संघर्ष करते हैं।

2.2 न्यूरल नेटवर्क दृष्टिकोण

गहन शिक्षण मॉडल, जटिल, उच्च-आयामी वितरण सीखने में सक्षम, शक्तिशाली उत्तराधिकारी के रूप में उभरे। PassGAN ने पासवर्ड उत्पन्न करने के लिए जनरेटिव एडवरसैरियल नेटवर्क्स (GANs) का उपयोग किया, हालांकि असतत डेटा के लिए GANs कुख्यात रूप से अस्थिर होते हैं। VAEPass applied Variational Autoencoders. The most recent and relevant approach is PassGPT, which leverages the GPT (Generative Pre-trained Transformer) architecture, an autoregressive model that predicts the next token given all previous ones. However, all these models typically rely on standard sampling (e.g., random sampling, top-k, nucleus sampling) during generation, which does not guarantee order or uniqueness.

3. SOPG विधि

3.1 मूल अवधारणा

SOPG addresses the fundamental inefficiency of random sampling. Instead of generating passwords stochastically, it frames password generation as a search problemलक्ष्य संभावित पासवर्डों के विशाल स्थान (मॉडल की शब्दावली और अधिकतम लंबाई द्वारा परिभाषित) को एक ऐसे क्रम में पार करना है जो अंतर्निहित ऑटोरेग्रेसिव न्यूरल नेटवर्क द्वारा निर्दिष्ट अवरोही संभावना का अनुमान लगाता है।

3.2 खोज एल्गोरिदम

हालांकि PDF सार विशिष्ट एल्गोरिदम का विवरण नहीं देता, SOPG संभवतः मॉडल की संभावना अनुमानों द्वारा निर्देशित बेस्ट-फर्स्ट सर्च या बीम सर्च रणनीति को नियोजित या अनुकूलित करता है। एक उम्मीदवार पासवर्ड को टोकनों के अनुक्रम के रूप में दर्शाया जाता है। खोज आंशिक या पूर्ण अनुक्रमों की एक प्राथमिकता कतार (जैसे, एक हीप) बनाए रखती है, जिन्हें उनकी संचयी संभावना या उससे प्राप्त एक ह्यूरिस्टिक स्कोर के आधार पर क्रमबद्ध किया जाता है। प्रत्येक चरण में, सबसे आशाजनक उम्मीदवार को संभावित अगले टोकन (शब्दावली से) जोड़कर विस्तारित किया जाता है, और नए उम्मीदवारों को स्कोर किया जाता है और कतार में वापस डाला जाता है। यह सुनिश्चित करता है कि आउटपुट स्ट्रीम लगभग सबसे अधिक से कम संभावित के क्रम में व्यवस्थित हो।

3.3 SOPGesGPT मॉडल

लेखक अपनी विधि को साकार करते हुए बनाते हैं SOPGesGPT, GPT आर्किटेक्चर पर आधारित एक पासवर्ड अनुमान मॉडल। मॉडल को अंतर्निहित वितरण सीखने के लिए लीक हुए पासवर्ड डेटासेट पर प्रशिक्षित किया जाता है। महत्वपूर्ण रूप से, जनरेटन चरण के दौरान, यह मानक सैंपलिंग के बजाय SOPG एल्गोरिदम का उपयोग करता है, जिससे यह SOPG की श्रेष्ठता प्रदर्शित करने का वाहक बन जाता है।

4. Technical Details & Mathematical Formulation

एक ऑटोरेग्रेसिव मॉडल (जैसे GPT) को देखते हुए, एक पासवर्ड अनुक्रम $S = (s_1, s_2, ..., s_T)$ की संभावना को इस प्रकार गुणनखंडित किया जाता है:

मानक यादृच्छिक नमूनाकरण इस वितरण से $s_t$ को आकर्षित करता है, जिससे एक यादृच्छिक चलन होता है। इसके विपरीत, SOPG का लक्ष्य उस अनुक्रम $S^*$ को खोजना है जो $P(S)$ को अधिकतम करता है या उच्च-संभाव्यता वाले अनुक्रमों को व्यवस्थित रूप से गिनता है। इसे इस प्रकार देखा जा सकता है:

5. Experimental Results & Analysis

कवरेज दर (SOPGesGPT)

35.06%

एक-साइट परीक्षण में शीर्ष कवरेज प्राप्त किया गया।

PassGPT पर सुधार

81%

नवीनतम मॉडल की तुलना में उच्च कवरेज दर।

PassGAN पर सुधार

421%

GAN-आधारित दृष्टिकोण पर भारी लाभ।

5.1 यादृच्छिक नमूनाकरण के साथ तुलना

शोध पत्र पहले SOPG के मूल दक्षता दावे को समान अंतर्निहित मॉडल पर मानक यादृच्छिक प्रतिचयन के विरुद्ध मान्य करता है। प्रमुख निष्कर्ष:

शून्य डुप्लिकेट: SOPG एक अद्वितीय, क्रमबद्ध सूची उत्पन्न करता है, जो डुप्लिकेट अनुमानों पर कम्प्यूटेशनल संसाधनों के अपव्यय को समाप्त करता है।
समान कवरेज के लिए कम अनुमान: समान कवरेज दर (एक परीक्षण सेट से क्रैक किए गए पासवर्डों का प्रतिशत) प्राप्त करने के लिए, SOPG को यादृच्छिक नमूनाकरण की तुलना में काफी कम मॉडल अनुमानों (फॉरवर्ड पास) की आवश्यकता होती है।
कुल अनुमानों की संख्या काफी कम: परिणामस्वरूप, SOPG एक बहुत छोटी अनुमान सूची उत्पन्न करके समान संख्या में पासवर्ड क्रैक करता है, जो सीधे तेज़ हमले के समय में अनुवादित होता है।

यह प्रयोग निर्णायक रूप से साबित करता है कि उत्पादन पद्धति एक प्रमुख बाधा है, और SOPG इसे प्रभावी ढंग से दूर करता है।

5.2 अत्याधुनिक तकनीकों के विरुद्ध बेंचमार्क

SOPGesGPT की तुलना एक-साइट परीक्षण में प्रमुख बेंचमार्क्स: OMEN (Markov), FLA, PassGAN (GAN), VAEPass (VAE), और नवीनतम PassGPT (यादृच्छिक नमूनाकरण के साथ GPT) के विरुद्ध की गई।

कवरेज दर: SOPGesGPT ने प्राप्त किया एक 35.06% कवरेज दर। सुधार चौंका देने वाले हैं: 254% OMEN की तुलना में, 298% FLA की तुलना में, 421% PassGAN की तुलना में, 380% VAEPass से अधिक, और 81% PassGPT से अधिक।
प्रभावी दर: शोध पत्र "प्रभावी दर" में अग्रणी होने का भी उल्लेख करता है, जो संभवतः प्रति इकाई समय या गणना में उत्पन्न अद्वितीय वैध पासवर्डों की संख्या को संदर्भित करता है, जो SOPG की दक्षता को और रेखांकित करता है।

चार्ट विवरण: एक बार चार्ट Y-अक्ष पर "कवरेज दर (%)" और X-अक्ष पर मॉडल के नाम दिखाएगा। SOPGesGPT की पट्टी अन्य सभी की तुलना में काफी ऊंची होगी, जबकि PassGPT दूसरे स्थान पर होगा लेकिन काफी नीचे। एक रेखा ओवरले 20% कवरेज तक पहुंचने के लिए आवश्यक अनुमानों की संख्या दिखा सकता है, जहां SOPGesGPT की रेखा शुरुआत में ही तेजी से ऊपर उठेगी, जो इसकी "तेज और कठोर प्रहार" क्षमता को प्रदर्शित करेगी।

6. Analysis Framework & Case Example

ढांचा: पासवर्ड अनुमान दक्षता चतुर्थांश
हम मॉडलों का दो अक्षों पर विश्लेषण कर सकते हैं: मॉडल क्षमता (ability से learn complex distributions, e.g., GPT > Markov) and जनन दक्षता (आउटपुट का इष्टतम क्रम)।

चतुर्थांश I (उच्च क्षमता, निम्न दक्षता): PassGPT, VAEPass. शक्तिशाली मॉडल यादृच्छिक सैंपलिंग द्वारा सीमित।
चतुर्थांश II (उच्च क्षमता, उच्च दक्षता): SOPGesGPT. इस कार्य द्वारा प्राप्त लक्ष्य स्थिति।
चतुर्थांश III (निम्न क्षमता, निम्न दक्षता): मूल नियम-आधारित हमले।
चतुर्थांश IV (निम्न क्षमता, उच्च दक्षता): OMEN, FLA. इनका निर्माण स्वाभाविक रूप से क्रमबद्ध (संभावना के अनुसार) है लेकिन उनकी मॉडल क्षमता अंतिम प्रदर्शन को सीमित करती है।

गैर-कोड केस उदाहरण: कल्पना कीजिए दो खजाना खोजियों (हमलावरों) के पास एक ही उच्च-गुणवत्ता वाला नक्शा (प्रशिक्षित जीपीटी मॉडल) है। एक खोजी (यादृच्छिक नमूना लेना) बेतरतीब ठिकानों पर चलता है, अक्सर उन्हीं जगहों पर वापस आता रहता है, और खजाना धीरे-धीरे ढूंढता है। दूसरा खोजी (एसओपीजी) के पास एक धातु खोजक यंत्र है जो पहले सबसे संभावित पास के स्थान की ओर इशारा करता है, एक व्यवस्थित, गैर-दोहराए जाने वाले रास्ते का पालन करते हुए। समान संख्या में कदमों के लिए, एसओपीजी खोजी कहीं अधिक खजाना ढूंढ लेता है। एसओपीजी तंत्रिका नेटवर्क नक्शे के लिए वही धातु खोजक यंत्र है।

7. Application Outlook & Future Directions

तत्काल अनुप्रयोग:

सक्रिय पासवर्ड सामर्थ्य मूल्यांकन: सुरक्षा फर्म्स एसओपीजी-संचालित उपकरणों का उपयोग सबसे संभावित हमले के अनुमानों को कई गुना तेजी से उत्पन्न करके पासवर्ड नीतियों का ऑडिट करने के लिए कर सकती हैं, जिससे यथार्थवादी जोखिम आकलन प्रदान किया जा सके।
Digital Forensics & Lawful Recovery: कानूनी जांचों में पासवर्ड पुनर्प्राप्ति को तेज करना जहां समय महत्वपूर्ण है।

भविष्य के अनुसंधान दिशाएँ:

हाइब्रिड खोज रणनीतियाँ: SOPG को सीमित यादृच्छिकता के साथ जोड़कर थोड़ी कम संभावना वाले लेकिन संभावित रूप से फलदायी "रचनात्मक" अनुमानों का पता पहले लगाना, शोषण और अन्वेषण के बीच संतुलन बनाना।
हार्डवेयर-त्वरित खोज: खोज एल्गोरिदम को GPUs/TPUs पर लागू करके उम्मीदवार मूल्यांकन को समानांतर बनाना, खोज प्रक्रिया के स्वयं के ओवरहेड को कम करना।
पासवर्ड से परे: क्रमबद्ध जनन प्रतिमान को अन्य ऑटोरेग्रेसिव मॉडल कार्यों पर लागू करना जहाँ क्रमबद्ध, अद्वितीय आउटपुट मूल्यवान है, जैसे सॉफ़्टवेयर के लिए परीक्षण मामले उत्पन्न करना, या व्यवहार्यता के क्रम में विविध डिज़ाइन प्रकार बनाना।
रक्षात्मक प्रतिकार: ऐसे कुशल, व्यवस्थित हमलों का पता लगाने और उनसे बचाव के लिए शोध, संभवतः एक एसओपीजी-जनित अनुमान सूची के "फिंगरप्रिंट" का एक यादृच्छिक सूची से अध्ययन करके।

8. References

एम. जिन, जे. ये, आर. शेन, एच. लू, "सर्च-बेस्ड ऑर्डर्ड पासवर्ड जनरेशन ऑफ ऑटोरेग्रेसिव न्यूरल नेटवर्क्स," प्रकाशन हेतु प्रस्तुत पांडुलिपि.
ए. नारायणन और वी. श्मातिकोव, "फास्ट डिक्शनरी अटैक्स ऑन पासवर्ड्स यूजिंग टाइम-स्पेस ट्रेडऑफ," इन प्रोसीडिंग्स ऑफ द 12वीं एसीएम कॉन्फ्रेंस ऑन कंप्यूटर एंड कम्युनिकेशंस सिक्योरिटी, 2005.
एम. वीर, एस. अग्रवाल, बी. डी मेडेरोस, और बी. ग्लोडेक, "पासवर्ड क्रैकिंग यूजिंग प्रोबेबिलिस्टिक कॉन्टेक्स्ट-फ्री ग्रामर्स," इन 2009 30वां IEEE सुरक्षा और गोपनीयता पर संगोष्ठी, 2009.
J. Ma, W. Yang, M. Luo, and N. Li, "संभाव्य पासवर्ड मॉडलों का एक अध्ययन," में 2014 IEEE सुरक्षा और गोपनीयता पर संगोष्ठी, 2014.
B. Hitaj, P. Gasti, G. Ateniese, and F. Perez-Cruz, "PassGAN: पासवर्ड अनुमान के लिए एक गहन शिक्षण दृष्टिकोण," में अनुप्रयुक्त क्रिप्टोग्राफी और नेटवर्क सुरक्षा कार्यशालाएँ, 2019.
OpenAI, "जनरेटिव प्री-ट्रेनिंग द्वारा भाषा की समझ में सुधार," 2018. [ऑनलाइन]. उपलब्ध: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
M. Pasquini, D. Bernardo, and G. Ateniese, "PassGPT: Password Modeling and (Guessing) with Large Language Models," in arXiv preprint arXiv:2306.01745, 2023.

9. Original Analysis & Expert Commentary

Core Insight

The paper's breakthrough isn't a new neural architecture; it's a surgical strike on the generation bottleneckवर्षों से, जनरेटिव AI में रुझानों को दर्शाते हुए, पासवर्ड अनुमान समुदाय ने मॉडल क्षमता - बड़े ट्रांसफॉर्मर, बेहतर GANs - पर जुनून सवार किया, जबकि सैंपलिंग प्रक्रिया को एक हल की गई, गौण समस्या मान लिया। जिन एट अल. इसे सही ढंग से एक गंभीर भ्रम के रूप में पहचानते हैं। एक शक्तिशाली मॉडल से यादृच्छिक सैंपलिंग एक सटीक स्नाइपर राइफल का उपयोग करके गोलियों को बेतरतीब ढंग से छिड़कने जैसा है; SOPG दूरबीन और रणनीति जोड़ता है। ध्यान का यह बदलाव मॉडलिंग से खोज पर, पेपर का सबसे महत्वपूर्ण वैचारिक योगदान है। यह प्रदर्शित करता है कि सुरक्षा अनुप्रयोगों में, जहां आउटपुट क्रम सीधे सफलता दर (सबसे आसान पासवर्ड पहले क्रैक करना) से मैप होता है, खोज दक्षता मॉडल सटीकता में सीमांत लाभ से अधिक महत्वपूर्ण हो सकती है।

तार्किक प्रवाह

तर्क प्रभावशाली और सुसंरचित है: (1) वर्तमान न्यूरल अनुमान (यादृच्छिक, डुप्लिकेट से भरा) के महत्व और अक्षमता की स्थापना करना। (2) संभाव्यता-क्रमबद्ध, अद्वितीय जनन को लागू करने के लिए एक खोज-आधारित समाधान के रूप में SOPG का प्रस्ताव रखना। (3) एक ही मॉडल पर यादृच्छिक सैंपलिंग पर SOPG की दक्षता को प्रयोगसिद्ध रूप से सिद्ध करना - एक स्पष्ट एब्लेशन अध्ययन। (4) SOPGesGPT का निर्माण करके और मौजूदा बेंचमार्क को ध्वस्त करके एंड-टू-एंड श्रेष्ठता प्रदर्शित करना। PassGPT पर 81% सुधार विशेष रूप से स्पष्ट है; यह एक ही GPT आर्किटेक्चर की दो अलग-अलग जनन योजनाओं के साथ तुलना करके SOPG के मूल्य को अलग करता है।

Strengths & Flaws

शक्तियाँ: मूल विचार सुंदर और उच्च-प्रभाव वाला है। प्रयोगात्मक डिजाइन मजबूत है, जिसके स्पष्ट, निर्णायक परिणाम हैं। प्रदर्शन लाभ वृद्धिशील नहीं हैं; वे परिवर्तनकारी हैं, यह सुझाव देते हुए कि SOPG एक नया मानक घटक बन सकता है। यह कार्य शास्त्रीय AI की खोज एल्गोरिदम के साथ गहराई से जुड़ता है, उन्हें एक आधुनिक डीप लर्निंग संदर्भ में लागू करता है—एक फलदार पार-परागण।

Flaws & Open Questions: PDF अंश में महत्वपूर्ण विवरणों का अभाव है: the specific search algorithm (A*, beam, best-first?) and its computational overheadखोज मुफ़्त नहीं है; एक प्राथमिकता कतार बनाए रखने और कई उम्मीदवारों को स्कोर करने की लागत होती है। पेपर "कम अनुमान" का दावा करता है, लेकिन क्या यह खोज के आंतरिक अनुमानों को ध्यान में रखता है? एक पूर्ण लागत-लाभ विश्लेषण आवश्यक है। इसके अलावा, "लगभग अवरोही क्रम" योग्यता अस्पष्ट है—कितना लगभग? क्या क्रम बहुत लंबे या जटिल पासवर्ड के लिए खराब हो जाता है? तुलना, हालांकि प्रभावशाली है, एक "एक-साइट परीक्षण" है। विविध डेटासेट (कॉर्पोरेट बनाम सोशल मीडिया पासवर्ड) में सामान्यीकरण की पुष्टि की आवश्यकता है। अंत में, सभी हमले की प्रगति की तरह, यह दोहरे उपयोग की तकनीक होने का जोखिम रखता है, जो रक्षकों के साथ-साथ दुर्भावनापूर्ण अभिनेताओं को भी सशक्त बनाता है।

कार्रवाई योग्य अंतर्दृष्टि

के लिए सुरक्षा व्यवसायी: तुरंत SOPG-जैसी पद्धतियों के खिलाफ अपने संगठन के पासवर्ड का दबाव-परीक्षण करें, न कि केवल पुराने मार्कोव या GAN मॉडल। पासवर्ड शक्ति अनुमानकों को इस नई पीढ़ी के कुशल, क्रमबद्ध हमलों को ध्यान में रखते हुए अद्यतन करें।

के लिए AI/ML शोधकर्ता: यह लक्ष्य-उन्मुख कार्यों के लिए ऑटोरेग्रेसिव मॉडल में जनन रणनीतियों की पुनः जांच करने के लिए एक स्पष्ट आह्वान है। केवल हानि वक्रों पर ध्यान केंद्रित न करें; विश्लेषण करें अनुमान मार्ग की दक्षताहाइब्रिड न्यूरो-सिम्बॉलिक दृष्टिकोणों का अन्वेषण करें जहां एक सीखा हुआ मॉडल एक शास्त्रीय खोज का मार्गदर्शन करता है।

के लिए Vendors & Policymakers: पासवर्ड से आगे बढ़ने की गति बढ़ाएं। SOPG डिक्शनरी हमलों को इतना कुशल बना देता है कि मध्यम रूप से जटिल पासवर्ड भी अधिक जोखिम में हैं। फ़िशिंग-प्रतिरोधी MFA (जैसे FIDO2/WebAuthn) को प्राथमिक प्रमाणीकरण विधि के रूप में निवेश करें और अनिवार्य करें। लीगेसी पासवर्ड सिस्टम के लिए, क्रमबद्ध, उच्च-गति हमले के पैटर्न को पहचानने के लिए ट्यून किए गए सख्त दर-सीमित और विसंगति पहचान लागू करें।

निष्कर्षतः, यह पेपर केवल पासवर्ड अनुमान को आगे नहीं बढ़ाता; यह एक मास्टरक्लास प्रदान करता है कि कैसे एक AI पाइपलाइन के अंतिम चरण—जनरेशन रणनीति—का अनुकूलन, मॉडल को स्वयं अंतहीन रूप से स्केल करने की तुलना में अधिक वास्तविक-विश्व प्रदर्शन लाभ प्राप्त करा सकता है। यह अनुप्रयुक्त AI दक्षता का एक पाठ है जो साइबर सुरक्षा से कहीं आगे गूंजता है।