ভাষা নির্বাচন করুন

র‌্যান্ডম ফরেস্ট ব্যবহার করে উচ্চ-নির্ভুল পাসওয়ার্ড শক্তি স্কোরিং

র‌্যান্ডম ফরেস্ট ব্যবহার করে একটি মেশিন লার্নিং-ভিত্তিক পাসওয়ার্ড শক্তি স্কোরিং সিস্টেম প্রস্তাবকারী একটি গবেষণাপত্র, যা প্রচলিত নিয়মের বাইরে সূক্ষ্ম দুর্বলতা বিশ্লেষণ করে ৯৯.১২% নির্ভুলতা অর্জন করে।
strongpassword.org | PDF Size: 0.5 MB
রেটিং: 4.5/5
আপনার রেটিং
আপনি ইতিমধ্যে এই ডকুমেন্ট রেট করেছেন
PDF ডকুমেন্ট কভার - র‌্যান্ডম ফরেস্ট ব্যবহার করে উচ্চ-নির্ভুল পাসওয়ার্ড শক্তি স্কোরিং

1. ভূমিকা

পাসওয়ার্ড হল প্রাথমিক প্রমাণীকরণ প্রক্রিয়া, তবুও এগুলো একটি গুরুত্বপূর্ণ দুর্বলতা হিসেবে দেখা দেয়। প্রচলিত পাসওয়ার্ড শক্তি মিটার, যেগুলো অক্ষর-প্রকারের প্রয়োজনীয়তা (LUDS) এর মতো স্থির নিয়মের উপর নির্ভর করে, আধুনিক অনুমান-ভিত্তিক আক্রমণের বিরুদ্ধে অপর্যাপ্ত। এই পদ্ধতিগুলো পূর্বাভাসযোগ্য প্যাটার্ন (যেমন, 'P@ssw0rd1!') শনাক্ত করতে ব্যর্থ হয়, যার ফলে নিরাপত্তার ভ্রান্ত ধারণা তৈরি হয়। এই গবেষণাপত্রটি বাস্তব-বিশ্বের পাসওয়ার্ড ডেটা এবং পরিশীলিত বৈশিষ্ট্য প্রকৌশল থেকে শিখে পাসওয়ার্ড শক্তি আরও সঠিকভাবে মূল্যায়ন করে এমন একটি মেশিন লার্নিং-ভিত্তিক স্কোরিং সিস্টেম প্রস্তাব করে এই ফাঁকটি পূরণ করে।

2. সম্পর্কিত কাজ

এই অংশটি প্রাথমিক নিয়ম-ভিত্তিক চেকার থেকে শুরু করে মার্কভ মডেল এবং নিউরাল নেটওয়ার্কের মতো আধুনিক সম্ভাব্যতা-ভিত্তিক পদ্ধতি পর্যন্ত পাসওয়ার্ড শক্তি মূল্যায়নের বিবর্তন পর্যালোচনা করে। এটি সেই স্থির পদ্ধতিগুলোর সীমাবদ্ধতার সমালোচনা করে যেগুলো শব্দার্থিক প্যাটার্ন এবং প্রাসঙ্গিক দুর্বলতাগুলো উপেক্ষা করে, প্রস্তাবিত ডেটা-চালিত, বৈশিষ্ট্য-সমৃদ্ধ পদ্ধতির জন্য ভিত্তি তৈরি করে।

3. প্রস্তাবিত পদ্ধতি

আমাদের পদ্ধতির মূল হল একটি তুলনামূলক মেশিন লার্নিং কাঠামোতে খাওয়ানো একটি হাইব্রিড বৈশিষ্ট্য প্রকৌশল পাইপলাইন।

3.1. ডেটাসেট ও প্রাক-প্রক্রিয়াকরণ

জ্ঞাত ডেটা লঙ্ঘন থেকে প্রাপ্ত ৬৬০,০০০-এরও বেশি বাস্তব-বিশ্বের পাসওয়ার্ডের একটি ডেটাসেট ব্যবহার করা হয়েছিল। ক্র্যাকিং প্রচেষ্টার (যেমন, সাধারণ নিয়ম সেট সহ হ্যাশক্যাটের মতো টুল ব্যবহার করে) বিরুদ্ধে তাদের প্রতিরোধের ভিত্তিতে পাসওয়ার্ডগুলিকে 'দুর্বল' বা 'শক্তিশালী' হিসাবে লেবেল করা হয়েছিল।

3.2. হাইব্রিড বৈশিষ্ট্য প্রকৌশল

আমরা মৌলিক মেট্রিক্স (দৈর্ঘ্য, এনট্রপি) ছাড়িয়ে গিয়ে সূক্ষ্ম দুর্বলতাগুলো ধারণ করি:

  • লিটস্পিক-স্বাভাবিককৃত শ্যানন এনট্রপি: প্রকৃত এলোমেলোতা মূল্যায়নের জন্য সাধারণ অক্ষর প্রতিস্থাপন (যেমন, '@' -> 'a', '3' -> 'e') বিপরীত করার পরে এনট্রপি গণনা করে।
  • প্যাটার্ন শনাক্তকরণ: কীবোর্ড ওয়াক (যেমন, 'qwerty'), ক্রম (যেমন, '12345'), এবং পুনরাবৃত্ত অক্ষর শনাক্ত করে।
  • অক্ষর-স্তরের TF-IDF N-grams: লঙ্ঘিত ডেটাসেট থেকে ঘন ঘন ঘটমান সাবস্ট্রিং বের করে সাধারণভাবে পুনরায় ব্যবহৃত পাসওয়ার্ড খণ্ডগুলো চিহ্নিত করে।
  • ডিকশনারি ম্যাচিং: একাধিক ডিকশনারি (ইংরেজি, নাম, স্থান) থেকে শব্দের উপস্থিতি পরীক্ষা করে।

3.3. মডেল স্থাপত্য ও প্রশিক্ষণ

চারটি মডেল প্রশিক্ষণ দেওয়া হয়েছিল এবং তুলনা করা হয়েছিল: র‌্যান্ডম ফরেস্ট (RF), সাপোর্ট ভেক্টর মেশিন (SVM), ক্রম বিশ্লেষণের জন্য একটি কনভোলিউশনাল নিউরাল নেটওয়ার্ক (CNN), এবং একটি বেসলাইন হিসেবে লজিস্টিক রিগ্রেশন। ডেটাসেটকে ৭০% প্রশিক্ষণ, ১৫% বৈধতা এবং ১৫% পরীক্ষার জন্য বিভক্ত করা হয়েছিল।

4. ফলাফল ও বিশ্লেষণ

4.1. কর্মদক্ষতা মেট্রিক্স

র‌্যান্ডম ফরেস্ট মডেল শ্রেষ্ঠ কর্মদক্ষতা অর্জন করেছে:

পরীক্ষা সেট নির্ভুলতা

৯৯.১২%

র‌্যান্ডম ফরেস্ট

তুলনামূলক নির্ভুলতা

  • SVM: ৯৭.৪৫%
  • CNN: ৯৮.০১%
  • লজিস্টিক রিগ্রেশন: ৯৫.৮৮%

চার্ট বর্ণনা: একটি বার চার্ট দৃশ্যত RF মডেলের অন্যান্য তিনটি মডেলের উপর নির্ভুলতায় উল্লেখযোগ্য অগ্রগতি চিত্রিত করবে। RF মডেলের জন্য একটি কনফিউশন ম্যাট্রিক্স ন্যূনতম মিথ্যা নেগেটিভ (দুর্বল পাসওয়ার্ডকে শক্তিশালী হিসেবে ভুল শ্রেণীবদ্ধ করা) দেখাবে, যা নিরাপত্তার জন্য অত্যন্ত গুরুত্বপূর্ণ।

4.2. বৈশিষ্ট্যের গুরুত্ব

র‌্যান্ডম ফরেস্টের ব্যাখ্যাযোগ্যতা বৈশিষ্ট্যের গুরুত্ব বিশ্লেষণের সুযোগ দিয়েছে। মডেলের সিদ্ধান্তে শীর্ষ অবদানকারীরা ছিল:

  1. লিটস্পিক-স্বাভাবিককৃত এনট্রপি
  2. ডিকশনারি শব্দের উপস্থিতি
  3. কীবোর্ড প্যাটার্ন স্কোর
  4. সাধারণ ৩-গ্রামের জন্য TF-IDF স্কোর
  5. কাঁচা পাসওয়ার্ড দৈর্ঘ্য

এই বিশ্লেষণটি যাচাই করে যে নতুন বৈশিষ্ট্যগুলো (স্বাভাবিককৃত এনট্রপি, প্যাটার্ন) শুধুমাত্র প্রচলিত দৈর্ঘ্য-ভিত্তিক মেট্রিক্সের চেয়ে বেশি পার্থক্যকারী।

5. আলোচনা ও ভবিষ্যৎ কাজ

অ্যাপ্লিকেশন সম্ভাবনা: এই স্কোরিং সিস্টেমটি রিয়েল-টাইম পাসওয়ার্ড তৈরির ইন্টারফেসে (যেমন, ব্যবহারকারী নিবন্ধনের সময়) নির্দিষ্ট, কার্যকরী প্রতিক্রিয়া (যেমন, "আপনার পাসওয়ার্ডে একটি সাধারণ কীবোর্ড ওয়াক 'qwerty' রয়েছে।") প্রদানের জন্য একীভূত করা যেতে পারে। এটি বিদ্যমান পাসওয়ার্ড ডাটাবেসের পর্যায়ক্রমিক নিরীক্ষণের জন্যও ব্যবহার করা যেতে পারে।

ভবিষ্যৎ দিকনির্দেশনা:

  • অভিযোজিত শিক্ষা: নতুন লঙ্ঘন ডেটা এবং উদীয়মান আক্রমণ প্যাটার্ন (যেমন, AI-উৎপাদিত পাসওয়ার্ড অনুমান) দিয়ে মডেলটিকে ক্রমাগত আপডেট করুন।
  • বহুভাষিক ও সাংস্কৃতিক প্রসঙ্গ: অ-ইংরেজি ভাষা এবং সাংস্কৃতিকভাবে নির্দিষ্ট পাসওয়ার্ড কভার করার জন্য ডিকশনারি এবং প্যাটার্ন লাইব্রেরি প্রসারিত করুন।
  • ফেডারেটেড লার্নিং: কাঁচা পাসওয়ার্ড প্রকাশ না করে বিকেন্দ্রীকৃত পাসওয়ার্ড ডেটাতে মডেল প্রশিক্ষণ দিন, গোপনীয়তা বাড়ান।
  • পাসওয়ার্ড ম্যানেজারের সাথে একীকরণ: শক্তিশালী, তবুও মনে রাখার মতো পাসফ্রেজ মূল্যায়ন এবং প্রস্তাব করার জন্য মডেলটি ব্যবহার করুন।

6. বিশ্লেষকের দৃষ্টিভঙ্গি: একটি চার-ধাপ বিশ্লেষণ

মূল অন্তর্দৃষ্টি: এই গবেষণাপত্রটি একটি গুরুত্বপূর্ণ, তবুও প্রায়শই উপেক্ষিত সত্য সরবরাহ করে: পাসওয়ার্ড নিরাপত্তা একটি প্যাটার্ন শনাক্তকরণ সমস্যা, নিয়ম-সম্মতি অনুশীলন নয়। লেখকরা সঠিকভাবে চিহ্নিত করেছেন যে শত্রু শুধু ছোট পাসওয়ার্ড নয়, বরং পূর্বাভাসযোগ্য পাসওয়ার্ড—একটি সূক্ষ্মতা যা বেশিরভাগ সম্মতি-চালিত নিরাপত্তা টুল হারিয়ে ফেলে। তাদের ৯৯.১২% নির্ভুলতা শুধু একটি সংখ্যা নয়; এটি অসংখ্য সিস্টেমে এখনও এম্বেড করা LUDS-ভিত্তিক চেকারগুলোর সরাসরি অভিযোগ।

যুক্তিগত প্রবাহ: যুক্তিটি আকর্ষণীয়ভাবে গঠন করা হয়েছে। এটি বিদ্যমান প্রযুক্তি (স্থির নিয়ম) ভেঙে দিয়ে শুরু হয়, একটি শিক্ষণ ব্যবস্থার প্রয়োজনীয়তা প্রতিষ্ঠা করে এবং তারপর ইটে ইটে তার মামলা গড়ে তোলে: একটি শক্তিশালী ডেটাসেট, মৌলিক বৈশিষ্ট্য প্রকৌশল (লিটস্পিক এনট্রপি একটি মাস্টারস্ট্রোক), এবং একটি ব্যবহারিক মডেল তুলনা। র‌্যান্ডম ফরেস্ট বেছে নেওয়া একটি চতুর পদক্ষেপ—এটি সম্ভাব্য গভীর শিক্ষণ কর্মক্ষমতার একটি সরু অংশকে ব্যাখ্যাযোগ্যতার স্বর্ণমানের জন্য ত্যাগ করে, যা ব্যবহারকারী-মুখী নিরাপত্তা পরামর্শের জন্য অপরিহার্য।

শক্তি ও ত্রুটি: শক্তি দ্ব্যর্থহীনভাবে বৈশিষ্ট্য সেটে রয়েছে। NIST SP 800-63B নির্দেশিকা ছাড়িয়ে গিয়ে, তারা আমলাদের মতো নয়, ক্রিপ্টোঅ্যানালিস্টদের মতো সমস্যাটি আক্রমণ করে। ত্রুটিটি, যেকোনো সুপারভাইজড মডেলের মতো, ঐতিহাসিক ডেটার উপর এর নির্ভরতা। এটি গতকালের 'P@ssw0rd1!' ধরতে উজ্জ্বল, কিন্তু আগামীকালের AI-নির্মিত, মনস্তাত্ত্বিকভাবে প্রোফাইল করা পাসওয়ার্ডের বিরুদ্ধে এটি কীভাবে কাজ করে? মডেলটি প্রতিক্রিয়াশীল, সক্রিয় নয়। তদুপরি, যদিও ডেটাসেটটি বড়, বিশ্বব্যাপী, বহুভাষিক পাসওয়ার্ড অভ্যাসের প্রতিনিধিত্বকারীতা অপ্রমাণিত।

কার্যকরী অন্তর্দৃষ্টি: CISO-দের জন্য, উপসংহারটি স্পষ্ট: যেকোনো নতুন অ্যাপ্লিকেশন উন্নয়নের জন্য ML-ভিত্তিক পাসওয়ার্ড ফিল্টার মূল্যায়ন বাধ্যতামূলক করুন। ডেভেলপারদের জন্য, বৈশিষ্ট্য প্রকৌশল ব্লুপ্রিন্ট হল ওপেন-সোর্স সোনা—এখনই এই চেকগুলি বাস্তবায়ন করা শুরু করুন, এমনকি বিদ্যমান সিস্টেমের উপরে একটি সাধারণ হিউরিস্টিক স্তর হিসাবেও। গবেষণা সম্প্রদায়ের এটি একটি মৌলিক মডেল হিসেবে বিবেচনা করা উচিত এবং পরবর্তী সীমান্তে প্রচেষ্টা কেন্দ্রীভূত করা উচিত: নতুন আক্রমণ প্যাটার্নের পূর্বাভাস দেওয়ার জন্য প্রতিপক্ষ প্রশিক্ষণ, ঠিক যেমন কম্পিউটার ভিশনে জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GAN) বিবর্তিত হয়েছে (যেমন ঝু এট আল-এর মৌলিক CycleGAN গবেষণাপত্রে দেখা গেছে) যুগলবিহীন চিত্র অনুবাদ পরিচালনা করতে, একটি অনুরূপভাবে জটিল ম্যাপিং সমস্যা।

7. প্রযুক্তিগত পরিশিষ্ট

7.1. গাণিতিক সূত্রায়ন

লিটস্পিক-স্বাভাবিককৃত এনট্রপি: প্রথমে, একটি স্বাভাবিককরণ ফাংশন $N(p)$ একটি পাসওয়ার্ড স্ট্রিংকে তার 'ডি-লিটেড' ফর্মে ম্যাপ করে (যেমন, $N("P@ssw0rd") = "Password"$)। তারপর শ্যানন এনট্রপি $H$ স্বাভাবিককৃত স্ট্রিংয়ে গণনা করা হয়: $$H(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i)$$ যেখানে $X$ হল স্বাভাবিককৃত পাসওয়ার্ড স্ট্রিং, $n$ হল অক্ষর সেটের আকার, এবং $P(x_i)$ হল অক্ষর $x_i$ এর সম্ভাব্যতা।

অক্ষর N-grams এর জন্য TF-IDF: লঙ্ঘিত পাসওয়ার্ডের একটি কর্পাস $D$ এর মধ্যে, পাসওয়ার্ড $d$ এর একটি প্রদত্ত n-gram $t$ (যেমন, একটি ৩-অক্ষরের ক্রম) এর জন্য: $$\text{TF-IDF}(t, d, D) = \text{freq}(t, d) \times \log\left(\frac{|D|}{|\{d \in D : t \in d\}|}\right)$$ একটি উচ্চ স্কোর একটি সাবস্ট্রিং নির্দেশ করে যা একটি নির্দিষ্ট পাসওয়ার্ডে সাধারণ কিন্তু লঙ্ঘিত পাসওয়ার্ড জুড়েও অস্বাভাবিকভাবে প্রচলিত, যা উচ্চ ঝুঁকির সংকেত দেয়।

7.2. বিশ্লেষণ কাঠামোর উদাহরণ

পরিস্থিতি: "M1cr0$0ft_2024" পাসওয়ার্ড মূল্যায়ন করা।

কাঠামো প্রয়োগ:

  1. মৌলিক মেট্রিক্স: দৈর্ঘ্য=১৪, বড়হাতের, ছোটহাতের, সংখ্যা, বিশেষ অক্ষর রয়েছে। প্রচলিত চেকার: শক্তিশালী।
  2. লিটস্পিক স্বাভাবিককরণ: N("M1cr0$0ft_2024") -> "Microsoft_2024"। এনট্রপি উল্লেখযোগ্যভাবে কমে যায় কারণ এটি একটি পূর্বাভাসযোগ্য শব্দ + বছর হয়ে যায়।
  3. প্যাটার্ন শনাক্তকরণ: কোন কীবোর্ড ওয়াক নেই। একটি ক্রম "2024" রয়েছে।
  4. ডিকশনারি ও TF-IDF: ডিকশনারি শব্দ "Microsoft" (স্বাভাবিককরণের পরে) রয়েছে। সাবস্ট্রিং "soft" পূর্ববর্তী লঙ্ঘন থেকে একটি উচ্চ TF-IDF স্কোর থাকতে পারে।
  5. মডেল অনুমান: র‌্যান্ডম ফরেস্ট মডেল, কম স্বাভাবিককৃত এনট্রপি, ডিকশনারি শব্দের উপস্থিতি এবং সাধারণ সাবস্ট্রিং এর ওজন করে, সম্ভবত এটিকে দুর্বল বা মাঝারি হিসাবে শ্রেণীবদ্ধ করবে, নির্দিষ্ট প্রতিক্রিয়া প্রদান করবে: "একটি সাধারণ কোম্পানির নাম এবং একটি সাম্প্রতিক বছর রয়েছে।"
এই উদাহরণটি প্রদর্শন করে কিভাবে কাঠামোটি নিয়ম-ভিত্তিক সিস্টেমের জন্য অদৃশ্য দুর্বলতাগুলো প্রকাশ করে।

8. তথ্যসূত্র

  1. Google Cloud. (2022). Cybersecurity Forecast 2022.
  2. Ur, B., et al. (2016). "Do Users' Perceptions of Password Security Match Reality?" In Proceedings of CHI 2016.
  3. Weir, M., et al. (2010). "Password Cracking Using Probabilistic Context-Free Grammars." In IEEE Symposium on Security and Privacy.
  4. Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). "Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks." In Proceedings of ICCV 2017. (প্রতিপক্ষ কাঠামো বিবর্তনের উদাহরণ হিসেবে উদ্ধৃত)।
  5. National Institute of Standards and Technology (NIST). (2017). Digital Identity Guidelines (SP 800-63B).