1. परिचय
पासवर्ड प्राथमिक प्रमाणीकरण तंत्र हैं, फिर भी वे एक गंभीर कमजोरी का प्रतिनिधित्व करते हैं। पारंपरिक पासवर्ड सुरक्षा मीटर, जो वर्ण-प्रकार आवश्यकताओं (LUDS) जैसे स्थिर नियमों पर निर्भर करते हैं, आधुनिक अनुमान लगाने वाले हमलों के खिलाफ अपर्याप्त हैं। ये विधियाँ पूर्वानुमेय पैटर्न (जैसे, 'P@ssw0rd1!') का पता लगाने में विफल रहती हैं, जिससे सुरक्षा की झूठी भावना पैदा होती है। यह पत्र वास्तविक दुनिया के पासवर्ड डेटा और परिष्कृत फीचर इंजीनियरिंग से सीखकर पासवर्ड सुरक्षा का अधिक सटीक मूल्यांकन करने वाली एक मशीन लर्निंग-आधारित स्कोरिंग प्रणाली का प्रस्ताव करके इस अंतर को संबोधित करता है।
2. संबंधित कार्य
यह खंड पासवर्ड सुरक्षा मूल्यांकन के विकास की समीक्षा करता है, जो प्रारंभिक नियम-आधारित चेकर से लेकर मार्कोव मॉडल और न्यूरल नेटवर्क जैसी आधुनिक संभाव्यता विधियों तक है। यह उन स्थिर दृष्टिकोणों की सीमाओं की आलोचना करता है जो शब्दार्थ पैटर्न और प्रासंगिक कमजोरियों को नजरअंदाज करते हैं, जिससे प्रस्तावित डेटा-संचालित, फीचर-समृद्ध पद्धति के लिए मंच तैयार होता है।
3. प्रस्तावित विधि
हमारे दृष्टिकोण का मूल एक तुलनात्मक मशीन लर्निंग ढांचे में फीड करने वाली एक हाइब्रिड फीचर इंजीनियरिंग पाइपलाइन है।
3.1. डेटासेट और प्रीप्रोसेसिंग
ज्ञात उल्लंघनों से 660,000 से अधिक वास्तविक दुनिया के पासवर्डों का एक डेटासेट उपयोग किया गया था। पासवर्डों को क्रैकिंग प्रयासों (जैसे, सामान्य नियम सेट के साथ हैशकैट जैसे टूल का उपयोग करके) के प्रति उनके प्रतिरोध के आधार पर 'कमजोर' या 'मजबूत' के रूप में लेबल किया गया था।
3.2. हाइब्रिड फीचर इंजीनियरिंग
हम मूल मेट्रिक्स (लंबाई, एन्ट्रॉपी) से आगे बढ़कर सूक्ष्म कमजोरियों को पकड़ते हैं:
- लीटस्पीक-सामान्यीकृत शैनन एन्ट्रॉपी: वास्तविक यादृच्छिकता का आकलन करने के लिए सामान्य वर्ण प्रतिस्थापनों (जैसे, '@' -> 'a', '3' -> 'e') को उलटने के बाद एन्ट्रॉपी की गणना करता है।
- पैटर्न पहचान: कीबोर्ड वॉक (जैसे, 'qwerty'), अनुक्रम (जैसे, '12345'), और दोहराए गए वर्णों की पहचान करता है।
- वर्ण-स्तरीय TF-IDF N-ग्राम: आमतौर पर पुन: उपयोग किए जाने वाले पासवर्ड खंडों को चिह्नित करने के लिए उल्लंघन वाले डेटासेट से अक्सर आने वाले सबस्ट्रिंग निकालता है।
- शब्दकोश मिलान: कई शब्दकोशों (अंग्रेजी, नाम, स्थान) से शब्दों की उपस्थिति की जाँच करता है।
3.3. मॉडल आर्किटेक्चर और प्रशिक्षण
चार मॉडलों को प्रशिक्षित और तुलना की गई: रैंडम फॉरेस्ट (RF), सपोर्ट वेक्टर मशीन (SVM), अनुक्रम विश्लेषण के लिए एक कन्व्होल्यूशनल न्यूरल नेटवर्क (CNN), और आधार रेखा के रूप में लॉजिस्टिक रिग्रेशन। डेटासेट को 70% प्रशिक्षण, 15% सत्यापन और 15% परीक्षण में विभाजित किया गया था।
4. परिणाम और विश्लेषण
4.1. प्रदर्शन मेट्रिक्स
रैंडम फॉरेस्ट मॉडल ने श्रेष्ठ प्रदर्शन हासिल किया:
टेस्ट सेट सटीकता
99.12%
रैंडम फॉरेस्ट
तुलनात्मक सटीकता
- SVM: 97.45%
- CNN: 98.01%
- लॉजिस्टिक रिग्रेशन: 95.88%
चार्ट विवरण: एक बार चार्ट दृश्य रूप से अन्य तीन मॉडलों पर आरएफ मॉडल की महत्वपूर्ण सटीकता बढ़त को दर्शाएगा। आरएफ मॉडल के लिए एक कन्फ्यूजन मैट्रिक्स न्यूनतम झूठी नकारात्मक (कमजोर पासवर्ड को मजबूत के रूप में गलत वर्गीकृत करना) दिखाएगा, जो सुरक्षा के लिए महत्वपूर्ण है।
4.2. फीचर महत्व
रैंडम फॉरेस्ट की व्याख्यात्मकता ने फीचर महत्व विश्लेषण की अनुमति दी। मॉडल के निर्णय में शीर्ष योगदानकर्ता थे:
- लीटस्पीक-सामान्यीकृत एन्ट्रॉपी
- शब्दकोश शब्दों की उपस्थिति
- कीबोर्ड पैटर्न स्कोर
- सामान्य 3-ग्राम के लिए TF-IDF स्कोर
- कच्ची पासवर्ड लंबाई
यह विश्लेषण इस बात की पुष्टि करता है कि नए फीचर (सामान्यीकृत एन्ट्रॉपी, पैटर्न) केवल पारंपरिक लंबाई-आधारित मेट्रिक्स की तुलना में अधिक भेदभावपूर्ण हैं।
5. चर्चा और भविष्य का कार्य
अनुप्रयोग संभावना: इस स्कोरिंग प्रणाली को वास्तविक समय पासवर्ड निर्माण इंटरफेस (जैसे, उपयोगकर्ता पंजीकरण के दौरान) में एकीकृत किया जा सकता है ताकि विशिष्ट, कार्रवाई योग्य प्रतिक्रिया प्रदान की जा सके (जैसे, "आपके पासवर्ड में एक सामान्य कीबोर्ड वॉक 'qwerty' है।")। इसका उपयोग मौजूदा पासवर्ड डेटाबेस के आवधिक ऑडिट के लिए भी किया जा सकता है।
भविष्य की दिशाएँ:
- अनुकूली शिक्षण: नए उल्लंघन डेटा और उभरते हमले पैटर्न (जैसे, एआई-जनित पासवर्ड अनुमान) के साथ मॉडल को लगातार अपडेट करें।
- बहुभाषी और सांस्कृतिक संदर्भ: गैर-अंग्रेजी भाषाओं और सांस्कृतिक रूप से विशिष्ट पासवर्डों को कवर करने के लिए शब्दकोश और पैटर्न लाइब्रेरी का विस्तार करें।
- फ़ेडरेटेड लर्निंग: कच्चे पासवर्ड को उजागर किए बिना विकेंद्रीकृत पासवर्ड डेटा पर मॉडल को प्रशिक्षित करें, गोपनीयता बढ़ाएँ।
- पासवर्ड मैनेजर के साथ एकीकरण: मजबूत, फिर भी यादगार, पासफ्रेज़ का मूल्यांकन और सुझाव देने के लिए मॉडल का उपयोग करें।
6. विश्लेषक का परिप्रेक्ष्य: एक चार-चरणीय विश्लेषण
मूल अंतर्दृष्टि: यह पत्र एक महत्वपूर्ण, फिर भी अक्सर अनदेखी की जाने वाली सच्चाई प्रस्तुत करता है: पासवर्ड सुरक्षा एक पैटर्न पहचान समस्या है, न कि नियम-अनुपालन अभ्यास। लेखक सही ढंग से पहचानते हैं कि दुश्मन केवल छोटे पासवर्ड नहीं हैं, बल्कि पूर्वानुमेय पासवर्ड हैं—यह एक सूक्ष्मता है जो अधिकांश अनुपालन-संचालित सुरक्षा उपकरणों में खो जाती है। उनकी 99.12% सटीकता केवल एक संख्या नहीं है; यह असंख्य प्रणालियों में अभी भी एम्बेडेड LUDS-आधारित चेकरों का सीधा आरोप है।
तार्किक प्रवाह: तर्क आकर्षक रूप से संरचित है। यह मौजूदा प्रौद्योगिकी (स्थिर नियमों) को ध्वस्त करने से शुरू होता है, एक शिक्षण प्रणाली की आवश्यकता स्थापित करता है, और फिर अपना मामला ईंट दर ईंट बनाता है: एक मजबूत डेटासेट, सरल फीचर इंजीनियरिंग (लीटस्पीक एन्ट्रॉपी एक उत्कृष्ट कदम है), और एक व्यावहारिक मॉडल तुलना। रैंडम फॉरेस्ट चुनना एक समझदार कदम है—यह व्याख्यात्मकता के स्वर्ण मानक के लिए संभावित डीप लर्निंग प्रदर्शन के एक हिस्से का त्याग करता है, जो उपयोगकर्ता-सामने वाली सुरक्षा सलाह के लिए गैर-परक्राम्य है।
शक्तियाँ और कमियाँ: शक्ति निस्संदेह फीचर सेट में है। NIST SP 800-63B दिशानिर्देशों से परे जाकर, वे समस्या पर क्रिप्टोएनालिस्ट की तरह हमला करते हैं, नौकरशाहों की तरह नहीं। किसी भी पर्यवेक्षित मॉडल की तरह, कमी ऐतिहासिक डेटा पर इसकी निर्भरता है। यह कल के 'P@ssw0rd1!' को पकड़ने में शानदार है, लेकिन कल के एआई-निर्मित, मनोवैज्ञानिक रूप से प्रोफाइल किए गए पासवर्डों के खिलाफ यह कैसा प्रदर्शन करता है? मॉडल प्रतिक्रियाशील है, सक्रिय नहीं। इसके अलावा, हालांकि डेटासेट बड़ा है, वैश्विक, बहुभाषी पासवर्ड आदतों की इसकी प्रतिनिधित्वशीलता अप्रमाणित है।
कार्रवाई योग्य अंतर्दृष्टि: सीआईएसओ के लिए, निष्कर्ष स्पष्ट है: किसी भी नए अनुप्रयोग विकास के लिए एमएल-आधारित पासवर्ड फिल्टर के मूल्यांकन को अनिवार्य करें। डेवलपर्स के लिए, फीचर इंजीनियरिंग ब्लूप्रिंट ओपन-सोर्स सोना है—मौजूदा प्रणालियों के शीर्ष पर एक साधारण ह्यूरिस्टिक परत के रूप में भी, इन जाँचों को लागू करना शुरू करें। शोध समुदाय को इसे एक आधारभूत मॉडल के रूप में मानना चाहिए और अगली सीमा पर प्रयासों पर ध्यान केंद्रित करना चाहिए: नए हमले पैटर्न की आशंका के लिए प्रतिकूल प्रशिक्षण, ठीक उसी तरह जैसे कंप्यूटर विजन में जनरेटिव एडवरसैरियल नेटवर्क (GAN) विकसित हुए (जैसा कि ज़ू एट अल के मौलिक CycleGAN पेपर में देखा गया है।) अनपेयर्ड इमेज ट्रांसलेशन को हैंडल करने के लिए, एक समान रूप से जटिल मैपिंग समस्या।
7. तकनीकी परिशिष्ट
7.1. गणितीय सूत्रीकरण
लीटस्पीक-सामान्यीकृत एन्ट्रॉपी: सबसे पहले, एक सामान्यीकरण फ़ंक्शन $N(p)$ एक पासवर्ड स्ट्रिंग को उसके 'डी-लीटेड' रूप में मैप करता है (जैसे, $N("P@ssw0rd") = "Password"$)। फिर सामान्यीकृत स्ट्रिंग पर शैनन एन्ट्रॉपी $H$ की गणना की जाती है: $$H(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i)$$ जहाँ $X$ सामान्यीकृत पासवर्ड स्ट्रिंग है, $n$ वर्ण सेट का आकार है, और $P(x_i)$ वर्ण $x_i$ की संभावना है।
वर्ण N-ग्राम के लिए TF-IDF: उल्लंघन वाले पासवर्डों के एक कॉर्पस $D$ के भीतर, पासवर्ड $d$ में एक दिए गए n-ग्राम $t$ (जैसे, एक 3-वर्ण अनुक्रम) के लिए: $$\text{TF-IDF}(t, d, D) = \text{freq}(t, d) \times \log\left(\frac{|D|}{|\{d \in D : t \in d\}|}\right)$$ एक उच्च स्कोर एक सबस्ट्रिंग को इंगित करता है जो एक विशिष्ट पासवर्ड में सामान्य है लेकिन उल्लंघन वाले पासवर्डों में भी असामान्य रूप से प्रचलित है, जो उच्च जोखिम का संकेत देता है।
7.2. विश्लेषण ढांचा उदाहरण
परिदृश्य: पासवर्ड "M1cr0$0ft_2024" का मूल्यांकन।
ढांचा अनुप्रयोग:
- मूल मेट्रिक्स: लंबाई=14, अपरकेस, लोअरकेस, अंक, विशेष वर्ण हैं। पारंपरिक चेकर: मजबूत।
- लीटस्पीक सामान्यीकरण: N("M1cr0$0ft_2024") -> "Microsoft_2024"। एन्ट्रॉपी काफी कम हो जाती है क्योंकि यह एक पूर्वानुमेय शब्द + वर्ष बन जाता है।
- पैटर्न पहचान: कोई कीबोर्ड वॉक नहीं। एक अनुक्रम "2024" शामिल है।
- शब्दकोश और TF-IDF: शब्दकोश शब्द "Microsoft" (सामान्यीकरण के बाद) शामिल है। सबस्ट्रिंग "soft" के पिछले उल्लंघनों से उच्च TF-IDF स्कोर हो सकता है।
- मॉडल अनुमान: रैंडम फॉरेस्ट मॉडल, कम सामान्यीकृत एन्ट्रॉपी, शब्दकोश शब्द उपस्थिति और सामान्य सबस्ट्रिंग को तौलते हुए, संभवतः इसे कमजोर या मध्यम के रूप में वर्गीकृत करेगा, विशिष्ट प्रतिक्रिया प्रदान करेगा: "एक सामान्य कंपनी का नाम और एक हाल का वर्ष शामिल है।"
8. संदर्भ
- Google Cloud. (2022). Cybersecurity Forecast 2022.
- Ur, B., et al. (2016). "Do Users' Perceptions of Password Security Match Reality?" In Proceedings of CHI 2016.
- Weir, M., et al. (2010). "Password Cracking Using Probabilistic Context-Free Grammars." In IEEE Symposium on Security and Privacy.
- Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." In Proceedings of ICCV 2017. (प्रतिकूल ढांचा विकास के उदाहरण के रूप में उद्धृत)।
- National Institute of Standards and Technology (NIST). (2017). Digital Identity Guidelines (SP 800-63B).