পাসওয়ার্ড নিরাপত্তা উন্নয়ন: র্যান্ডম ফরেস্ট ব্যবহার করে একটি উচ্চ-নির্ভুলতা স্কোরিং কাঠামো

সূচিপত্র

1. ভূমিকা

পাসওয়ার্ড এখনও প্রাথমিক প্রমাণীকরণ প্রক্রিয়া হিসেবে রয়েছে, অথচ এটি একটি গুরুত্বপূর্ণ দুর্বলতা। ঐতিহ্যগত পাসওয়ার্ড শক্তি মিটার, যেগুলো অক্ষরের ধরনের প্রয়োজনীয়তা (LUDS) এর মতো স্থির নিয়মের উপর নির্ভর করে, সেগুলো সহজেই পূর্বাভাসযোগ্য প্যাটার্ন দ্বারা (যেমন, 'P@ssw0rd1!') এড়ানো যায়, যা নিরাপত্তার একটি মিথ্যা অনুভূতি দেয়। এই গবেষণাপত্রটি মেশিন লার্নিং-ভিত্তিক একটি পাসওয়ার্ড শক্তি স্কোরিং সিস্টেম প্রস্তাব করে এই ফাঁকটি পূরণ করে। মূল উদ্দেশ্য হল সরল নিয়ম-পরীক্ষার বাইরে গিয়ে এমন একটি মডেলের দিকে অগ্রসর হওয়া যা মানুষের বেছে নেওয়া পাসওয়ার্ডের জটিল, প্রাসঙ্গিক দুর্বলতাগুলো বোঝে, এবং শেষ পর্যন্ত আরও সঠিক ও কার্যকর নিরাপত্তা মূল্যায়ন প্রদান করে।

2. সম্পর্কিত কাজ

পাসওয়ার্ড শক্তি মূল্যায়নের পূর্ববর্তী গবেষণা সরল নিয়ম-ভিত্তিক চেকার থেকে সম্ভাব্যতা মডেলে বিবর্তিত হয়েছে। প্রাথমিক কাজ রচনা নিয়মের উপর দৃষ্টি নিবদ্ধ করেছিল। পরে, পাসওয়ার্ড তৈরির অভ্যাস মডেল করার জন্য সম্ভাব্যতা-ভিত্তিক কনটেক্সট-ফ্রি গ্রামার (PCFG) এবং মার্কভ মডেল চালু করা হয়েছিল। সাম্প্রতিক সময়ে, নিউরাল নেটওয়ার্ক সহ মেশিন লার্নিং পদ্ধতিগুলো প্রয়োগ করা হয়েছে। তবে, অনেকগুলোরই ব্যাখ্যাযোগ্যতার অভাব রয়েছে অথবা সিনট্যাকটিক এবং সিম্যান্টিক উভয় দুর্বলতা ধারণ করে এমন বৈশিষ্ট্যের একটি ব্যাপক সেট একীভূত করতে ব্যর্থ হয়। এই কাজটি উন্নত বৈশিষ্ট্য প্রকৌশলকে একটি ব্যাখ্যাযোগ্য, উচ্চ-কর্মক্ষমতা মডেলের সাথে যুক্ত করে এই ভিত্তির উপর গড়ে উঠেছে।

3. প্রস্তাবিত পদ্ধতি

প্রস্তাবিত কাঠামোতে তিনটি মূল ধাপ জড়িত: ডেটা প্রস্তুতি, পরিশীলিত বৈশিষ্ট্য নিষ্কাশন, এবং মডেল প্রশিক্ষণ/মূল্যায়ন।

3.1. ডেটাসেট ও প্রাক-প্রক্রিয়াকরণ

মডেলটি ৬৬০,০০০-এরও বেশি বাস্তব-বিশ্বের পাসওয়ার্ডের একটি ডেটাসেটে প্রশিক্ষিত এবং মূল্যায়ন করা হয়েছে, সম্ভবত সর্বজনীন ডেটা লঙ্ঘন থেকে সংগ্রহ করা হয়েছে (উপযুক্ত বেনামীকরণ সহ)। পাসওয়ার্ডগুলিকে তাদের আনুমানিক শক্তি বা ক্র্যাকিং প্রচেষ্টা থেকে জানা দুর্বলতার ভিত্তিতে লেবেল করা হয়েছে। ডেটা প্রাক-প্রক্রিয়াকরণে এনকোডিং হ্যান্ডলিং এবং মৌলিক স্বাভাবিকীকরণ অন্তর্ভুক্ত।

3.2. হাইব্রিড বৈশিষ্ট্য প্রকৌশল

এটি গবেষণাপত্রের প্রাথমিক উদ্ভাবন। বৈশিষ্ট্য সেটটি মৌলিক মেট্রিক্সের বাইরে গিয়ে সূক্ষ্ম দুর্বলতাগুলো ধারণ করে:

মৌলিক মেট্রিক্স: দৈর্ঘ্য, অক্ষরের ধরনের গণনা (LUDS)।
লিটস্পিক-স্বাভাবিককৃত শ্যানন এনট্রপি: সাধারণ লিটস্পিক প্রতিস্থাপনগুলিকে বিপরীত করার পরে এনট্রপি গণনা করে (যেমন, '@' -> 'a', '3' -> 'e') প্রকৃত এলোমেলোতা মূল্যায়ন করতে। এনট্রপি $H$ হিসাবে গণনা করা হয়: $H = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i)$ যেখানে $P(x_i)$ হল অক্ষর $x_i$ এর সম্ভাব্যতা।
প্যাটার্ন শনাক্তকরণ: কীবোর্ড ওয়াক (যেমন, 'qwerty'), ক্রম (যেমন, '12345'), এবং পুনরাবৃত্ত অক্ষর শনাক্ত করে।
ডিকশনারি ও এন-গ্রাম বৈশিষ্ট্য: সাধারণ ডিকশনারি শব্দের (একাধিক ভাষা) বিরুদ্ধে পরীক্ষা করে এবং লঙ্ঘিত ডেটাসেট থেকে ঘন ঘন পুনর্ব্যবহৃত সাবস্ট্রিং শনাক্ত করতে এন-গ্রামে (যেমন, বাই-গ্রাম, ট্রাই-গ্রাম) অক্ষর-স্তরের TF-IDF ব্যবহার করে।
গঠনগত বৈশিষ্ট্য: অক্ষরের ধরনের অবস্থান, অনন্য অক্ষরের অনুপাত দৈর্ঘ্যের সাথে।

3.3. মডেল স্থাপত্য ও প্রশিক্ষণ

চারটি মডেলের তুলনা করা হয়েছিল: র্যান্ডম ফরেস্ট (RF), সাপোর্ট ভেক্টর মেশিন (SVM), একটি কনভোলিউশনাল নিউরাল নেটওয়ার্ক (CNN), এবং লজিস্টিক রিগ্রেশন। র্যান্ডম ফরেস্টকে এর উচ্চতর কর্মক্ষমতা এবং অন্তর্নিহিত ব্যাখ্যাযোগ্যতার কারণে চূড়ান্ত মডেল হিসেবে নির্বাচন করা হয়েছিল। ডেটাসেটকে প্রশিক্ষণ, বৈধকরণ এবং পরীক্ষা সেটে বিভক্ত করা হয়েছিল। গ্রিড সার্চ বা র্যান্ডম সার্চ ক্রস-ভ্যালিডেশন ব্যবহার করে হাইপারপ্যারামিটার টিউনিং করা হয়েছিল।

4. ফলাফল ও বিশ্লেষণ

4.1. কর্মক্ষমতা মেট্রিক্স

র্যান্ডম ফরেস্ট মডেলটি সংরক্ষিত পরীক্ষা সেটে ৯৯.১২% নির্ভুলতা অর্জন করেছে, যা অন্য মডেলগুলিকে উল্লেখযোগ্যভাবে ছাড়িয়ে গেছে। প্রধান কর্মক্ষমতা মেট্রিক্স নিচে সংক্ষিপ্ত করা হয়েছে:

মডেল কর্মক্ষমতা তুলনা

র্যান্ডম ফরেস্ট: ৯৯.১২% নির্ভুলতা

সাপোর্ট ভেক্টর মেশিন: ~৯৭.৫% নির্ভুলতা

কনভোলিউশনাল নিউরাল নেটওয়ার্ক: ~৯৮.০% নির্ভুলতা

লজিস্টিক রিগ্রেশন: ~৯৫.৮% নির্ভুলতা

ডেটাসেট পরিসংখ্যান

মোট পাসওয়ার্ড: ৬৬০,০০০+

বৈশিষ্ট্য ভেক্টর মাত্রা: ৫০+

পরীক্ষা সেটের আকার: মোট ডেটার ২০%

চার্ট বর্ণনা: একটি বার চার্ট চারটি মডেলের নির্ভুলতা দৃশ্যত উপস্থাপন করবে, যা র্যান্ডম ফরেস্টের আধিপত্য স্পষ্টভাবে দেখাবে। একটি দ্বিতীয় চার্ট RF মডেলের জন্য প্রিসিশন-রিকল কার্ভ দেখাতে পারে, যা বিভিন্ন শ্রেণিবিন্যাস থ্রেশহোল্ড জুড়ে এর দৃঢ়তা নির্দেশ করে।

4.2. বৈশিষ্ট্যের গুরুত্ব

র্যান্ডম ফরেস্ট মডেলের একটি প্রধান সুবিধা হল বৈশিষ্ট্যের গুরুত্ব স্কোর নিষ্কাশন করার ক্ষমতা। বিশ্লেষণে প্রকাশ পেয়েছে যে লিটস্পিক-স্বাভাবিককৃত এনট্রপি এবং ডিকশনারি ম্যাচ ফ্ল্যাগ শীর্ষস্থানীয় ভবিষ্যদ্বাণীকারীদের মধ্যে ছিল, এই অনুমানকে বৈধতা দেয় যে এই হাইব্রিড বৈশিষ্ট্যগুলো গুরুত্বপূর্ণ। কীবোর্ড ওয়াকের জন্য প্যাটার্ন শনাক্তকরণ বৈশিষ্ট্যগুলিও উচ্চ স্থান পেয়েছে।

4.3. তুলনামূলক বিশ্লেষণ

RF মডেলের কর্মক্ষমতা প্রদর্শন করে যে এই কাঠামোবদ্ধ, বৈশিষ্ট্য-সমৃদ্ধ কাজের জন্য এনসেম্বল ট্রি-ভিত্তিক পদ্ধতিগুলি আরও জটিল নিউরাল নেটওয়ার্কের (CNN) ভবিষ্যদ্বাণীমূলক শক্তির সাথে মিলতে পারে বা ছাড়িয়ে যেতে পারে, পাশাপাশি অনেক বেশি স্বচ্ছতা প্রদান করে। লজিস্টিক রিগ্রেশনের দুর্বল কর্মক্ষমতা বৈশিষ্ট্যগুলির মধ্যে অ-রৈখিক, জটিল সম্পর্কগুলিকে হাইলাইট করে যা সরল রৈখিক মডেলগুলি ধারণ করতে পারে না।

5. আলোচনা ও ভবিষ্যৎ কাজ

অ্যাপ্লিকেশন ও একীকরণ: এই স্কোরিং সিস্টেমটি রিয়েল-টাইম পাসওয়ার্ড তৈরির ইন্টারফেসে একীভূত করা যেতে পারে, তাৎক্ষণিক, সূক্ষ্ম প্রতিক্রিয়া প্রদান করে (যেমন, "সাধারণ কীবোর্ড প্যাটার্ন 'qwerty' এর কারণে দুর্বল") একটি সরল "দুর্বল/শক্তিশালী" লেবেলের পরিবর্তে। এটি বিদ্যমান পাসওয়ার্ড ডাটাবেসের পর্যায়ক্রমিক নিরীক্ষার জন্যও ব্যবহার করা যেতে পারে।

ভবিষ্যৎ দিকনির্দেশনা:

প্রতিপক্ষ শিক্ষণ: বিবর্তিত আক্রমণ কৌশলের বিরুদ্ধে মডেলটিকে দৃঢ় করতে GAN-এর মতো সেটআপে হ্যাশক্যাট বা জন দ্য রিপারের মতো অত্যাধুনিক পাসওয়ার্ড ক্র্যাকারের বিরুদ্ধে মডেলটিকে প্রশিক্ষণ দেওয়া, সাইকেলজিএএন-এর মতো ইমেজ মডেলগুলিতে প্রতিপক্ষ প্রশিক্ষণের অনুরূপ।
প্রসঙ্গ-সচেতন স্কোরিং: ব্যক্তিগতকৃত শক্তি থ্রেশহোল্ডের জন্য ব্যবহারকারীর প্রসঙ্গ (যেমন, পরিষেবার ধরন—ব্যাংকিং বনাম সোশ্যাল মিডিয়া, ব্যবহারকারীর অতীত পাসওয়ার্ড অভ্যাস) অন্তর্ভুক্ত করা।
ফেডারেটেড লার্নিং: সংবেদনশীল ডেটাকে কেন্দ্রীভূত না করে, গোপনীয়তা রক্ষা করে, বিভিন্ন সংস্থা জুড়ে নতুন পাসওয়ার্ড ডেটা থেকে শিখে মডেলটিকে ক্রমাগত উন্নত করার অনুমতি দেওয়া।
ব্যাখ্যাযোগ্য এআই (XAI) একীকরণ: বৈশিষ্ট্যের গুরুত্ব বিশ্লেষণকে স্থানীয় ব্যাখ্যাযোগ্য মডেল-অজ্ঞেয়বাদী ব্যাখ্যা (LIME) দিয়ে উন্নত করে আরও স্পষ্ট ব্যবহারকারী নির্দেশনা প্রদান করা।

6. বিশ্লেষকের দৃষ্টিভঙ্গি: একটি চার-ধাপ বিশ্লেষণ

মূল অন্তর্দৃষ্টি: গবেষণাপত্রের প্রকৃত অগ্রগতি ৯৯% নির্ভুলতা নয়—এটি হল প্রাথমিক লক্ষ্য হিসেবে কাঁচা নির্ভুলতাকে কৌশলগতভাবে অবমূল্যায়ন এবং এর পরিবর্তে ব্যাখ্যাযোগ্য, কার্যকরী বুদ্ধিমত্তা কে প্রাধান্য দেওয়া। ব্ল্যাক-বক্স নিউরাল নেটওয়ার্কে ডুবে থাকা একটি ক্ষেত্রে, লেখকরা বিচক্ষণতার সাথে র্যান্ডম ফরেস্ট বেছে নিয়েছেন শুধু এটি কাজ করে বলে নয়, বরং এটি ব্যাখ্যা করতে পারে কেন এটি কাজ করে বলে। এটি মূল্য প্রস্তাবকে কেবল ভবিষ্যদ্বাণী থেকে ব্যবহারকারী শিক্ষা এবং সিস্টেম শক্তিশালীকরণের দিকে স্থানান্তরিত করে, যা একাডেমিক ML-ফর-সিকিউরিটি গবেষণাপত্রগুলিতে প্রায়ই অনুপস্থিত থাকে।

যুক্তিসঙ্গত প্রবাহ ও কৌশলগত সঠিকতা: যুক্তি অকল্পনীয়: ১) স্থির নিয়মগুলি ভাঙা, ২) অতএব, বাস্তব-বিশ্বের লঙ্ঘন ডেটা থেকে শেখা, ৩) কিন্তু জটিল প্যাটার্ন শিখতে পরিশীলিত বৈশিষ্ট্যের প্রয়োজন (সুতরাং হাইব্রিড প্রকৌশল), ৪) তবুও, গ্রহণের জন্য, সিস্টেমটিকে অবশ্যই তার স্কোরগুলিকে ন্যায্যতা প্রমাণ করতে হবে। SVM, CNN, এবং লজিস্টিক রিগ্রেশনের বিরুদ্ধে বেঞ্চমার্ক করার পছন্দটি চতুর—এটি প্রদর্শন করে যে তাদের বৈশিষ্ট্য প্রকৌশল এতটাই শক্তিশালী যে একটি অপেক্ষাকৃত সরল, ব্যাখ্যাযোগ্য মডেল আরও জটিল বিকল্পগুলিকে পরাজিত করতে পারে। এটি ব্যবহারিক ML সিস্টেম ডিজাইনের একটি মাস্টারক্লাস।

শক্তি ও স্পষ্ট ত্রুটি: হাইব্রিড বৈশিষ্ট্য সেট, বিশেষ করে লিটস্পিক-স্বাভাবিককৃত এনট্রপি, মার্জিত এবং কার্যকর। একটি বৃহৎ, বাস্তব-বিশ্বের ডেটাসেটের ব্যবহার গবেষণাটিকে বাস্তবতায় ভিত্তি দেয়। যাইহোক, গবেষণাপত্রের প্রধান ত্রুটি হল এর নীরব অনুমান: যে অতীতের লঙ্ঘন ডেটা ভবিষ্যতের দুর্বলতাকে পুরোপুরি ভবিষ্যদ্বাণী করে। এই মডেলটি অন্তর্নিহিতভাবে অতীত-দর্শী। জেনারেটিভ এআই ব্যবহার করে নতুন, অ-ডিকশনারি-ভিত্তিক কিন্তু মনস্তাত্ত্বিকভাবে সম্ভাব্য পাসওয়ার্ড তৈরি করতে (একটি কৌশল যা সাম্প্রতিক OpenAI এবং Anthropic-এর এআই নিরাপত্তা গবেষণায় ইঙ্গিত দেওয়া হয়েছে) একটি পরিশীলিত আক্রমণকারী সম্ভাব্যভাবে এটি এড়িয়ে যেতে পারে। মডেলটি শেষ যুদ্ধটি উজ্জ্বলভাবে লড়াই করে, কিন্তু পরবর্তী যুদ্ধের জন্য মৌলিকভাবে ভিন্ন অস্ত্রাগারের প্রয়োজন হতে পারে।

অনুশীলনকারীদের জন্য কার্যকরী অন্তর্দৃষ্টি:

তাৎক্ষণিক পদক্ষেপ: নিরাপত্তা দলগুলির উচিত বিক্রেতাদের উপর চাপ দেওয়া যাতে LUDS-ভিত্তিক মিটারগুলিকে এইরকম ML-চালিত, ব্যাখ্যাযোগ্য সিস্টেম দ্বারা প্রতিস্থাপন করা হয়। শুধুমাত্র ক্রেডেনশিয়াল-স্টাফিং আক্রমণ প্রতিরোধে ROI বিশাল।
উন্নয়ন অগ্রাধিকার: বৈশিষ্ট্যের গুরুত্ব আউটপুটকে ব্যবহারকারী প্রতিক্রিয়া লুপে একীভূত করার উপর ফোকাস করুন। একজন ব্যবহারকারীকে বলা "আপনার পাসওয়ার্ড দুর্বল" অকেজো; তাদের বলা "এটি দুর্বল কারণ এতে একটি সাধারণ কীবোর্ড ওয়াক এবং একটি ডিকশনারি শব্দ রয়েছে" আচরণ পরিবর্তন ঘটায়।
কৌশলগত গবেষণা ও উন্নয়ন বিনিয়োগ: ভবিষ্যৎ প্রতিপক্ষ, জেনারেটিভ মডেল এর মধ্যে নিহিত। ক্রমাগত রেড-টিম/ব্লু-টিম সিমুলেশনে এআই পাসওয়ার্ড ক্র্যাকারের সাথে সমন্বয়ে প্রশিক্ষিত স্কোরিং সিস্টেম বিকাশের জন্য সম্পদ বরাদ্দ করুন, সেই প্রতিপক্ষ প্রশিক্ষণ প্রক্রিয়াগুলির অনুরূপ যা সাইকেলজিএএন-এর মতো ইমেজ ট্রান্সলেশনের মডেলগুলিকে এত দৃঢ় করেছে। আপনার মডেল আপডেট করার জন্য পরবর্তী বড় লঙ্ঘনের জন্য অপেক্ষা করা একটি হারানো কৌশল।

উপসংহারে, এই কাজটি পাসওয়ার্ড নিরাপত্তার যুদ্ধে একটি উল্লেখযোগ্য কৌশলগত বিজয়। যাইহোক, এটিকে একটি চূড়ান্ত সমাধান হিসেবে বিবেচনা করা একটি কৌশলগত ভুল হবে। এটি অভিযোজিত, পূর্বাভাসমূলক প্রতিরক্ষা ব্যবস্থার পরবর্তী প্রজন্ম গড়ে তোলার জন্য এখন পর্যন্ত সেরা ভিত্তি।

7. প্রযুক্তিগত পরিশিষ্ট

বিশ্লেষণ কাঠামো উদাহরণ (নন-কোড): "S3cur1ty2024!" পাসওয়ার্ডটি মূল্যায়ন করার কথা বিবেচনা করুন। একটি ঐতিহ্যগত LUDS চেকার দৈর্ঘ্য=১২, বড় হাতের, ছোট হাতের, সংখ্যা, বিশেষ অক্ষর দেখে—সম্ভবত এটিকে "শক্তিশালী" স্কোর করে। আমাদের কাঠামোর বিশ্লেষণ হবে:

লিটস্পিক স্বাভাবিকীকরণ: "Security2024!" তে রূপান্তর করে।
এনট্রপি গণনা: স্বাভাবিককৃত স্ট্রিং-এ এনট্রপি গণনা করে, যা কমে যায় কারণ "Security" একটি সাধারণ ডিকশনারি শব্দ।
ডিকশনারি ম্যাচ: "Security" কে শীর্ষ-১০k ইংরেজি শব্দ হিসেবে ফ্ল্যাগ করে।
প্যাটার্ন শনাক্তকরণ: "2024" কে একটি সাধারণ ক্রমিক বছর প্যাটার্ন হিসেবে ফ্ল্যাগ করে।
এন-গ্রাম বিশ্লেষণ: খুঁজে পায় যে "ty20" লঙ্ঘিত পাসওয়ার্ডগুলিতে ঘন ঘন ঘটে যাওয়া একটি সাবস্ট্রিং (সাধারণ শব্দের সমাপ্তিকে সাধারণ বছর উপসর্গের সাথে সংযুক্ত করে)।

র্যান্ডম ফরেস্ট মডেল এই ওজনযুক্ত বৈশিষ্ট্যগুলিকে সংশ্লেষ করে। যদিও দৈর্ঘ্য এবং অক্ষরের বৈচিত্র্য ইতিবাচকভাবে অবদান রাখে, ডিকশনারি ম্যাচ, পূর্বাভাসযোগ্য বছর, এবং সাধারণ এন-গ্রাম থেকে ভারী নেতিবাচক ওজন সম্ভবত "মাঝারি" বা "দুর্বল" এর একটি চূড়ান্ত স্কোরের দিকে নিয়ে যাবে, যা অনেক বেশি সঠিক ঝুঁকি মূল্যায়ন এবং নির্দিষ্ট প্রতিক্রিয়া পয়েন্ট প্রদান করে ("ডিকশনারি শব্দ এড়িয়ে চলুন", "সাম্প্রতিক বছরগুলি এড়িয়ে চলুন")।

8. তথ্যসূত্র

Google Cloud. (2022). Threat Horizons Report.
Veras, R., et al. (2014). On the Semantic Patterns of Passwords and their Security Impact. In NDSS.
Weir, M., et al. (2010). Password Cracking Using Probabilistic Context-Free Grammars. In IEEE S&P.
Zhu, J.-Y., et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. In ICCV (CycleGAN).
OpenAI. (2023). GPT-4 Technical Report. (Discusses capabilities in generating plausible text, relevant for novel password generation).
Scikit-learn: Machine Learning in Python. Pedregosa et al., JMLR 12, pp. 2825-2830, 2011.