1. Giriş
Parolalar, birincil kimlik doğrulama mekanizması olmalarına rağmen kritik bir güvenlik açığı temsil etmektedir. Karakter tipi gereksinimleri (büyük/küçük harf, rakam, özel karakter) gibi statik kurallara dayanan geleneksel parola gücü ölçerleri, modern tahmin saldırılarına karşı yetersiz kalmaktadır. Bu yöntemler, tahmin edilebilir kalıpları (örneğin, 'P@ssw0rd1!') tespit edemez ve bu da yanlış bir güvenlik hissi yaratır. Bu makale, gerçek dünya parola verilerinden ve sofistike öznitelik mühendisliğinden öğrenerek parola gücünü daha doğru bir şekilde değerlendiren, makine öğrenimi tabanlı bir puanlama sistemi önererek bu boşluğu ele almaktadır.
2. İlgili Çalışmalar
Bu bölüm, erken dönem kural tabanlı denetleyicilerden Markov modelleri ve sinir ağları gibi modern olasılıksal yöntemlere kadar parola gücü değerlendirmesinin evrimini gözden geçirmektedir. Anlamsal kalıpları ve bağlamsal güvenlik açıklarını göz ardı eden statik yaklaşımların sınırlamalarını eleştirerek, önerilen veri odaklı, zengin öznitelikli metodoloji için zemin hazırlamaktadır.
3. Önerilen Yöntem
Yaklaşımımızın çekirdeği, karşılaştırmalı bir makine öğrenimi çerçevesine beslenen hibrit bir öznitelik mühendisliği işlem hattıdır.
3.1. Veri Seti & Ön İşleme
Bilinen ihlallerden elde edilen 660.000'den fazla gerçek dünya parolasından oluşan bir veri seti kullanıldı. Parolalar, kırma girişimlerine karşı dirençlerine göre (örneğin, Hashcat gibi araçlar ve yaygın kural setleri kullanılarak) 'zayıf' veya 'güçlü' olarak etiketlendi.
3.2. Hibrit Öznitelik Mühendisliği
Temel metriklerin (uzunluk, entropi) ötesine geçerek nüanslı güvenlik açıklarını yakalıyoruz:
- Leetspeak-Normalize Edilmiş Shannon Entropisi: Gerçek rastgeleliği değerlendirmek için yaygın karakter ikamelerini tersine çevirdikten sonra (örneğin, '@' -> 'a', '3' -> 'e') entropiyi hesaplar.
- Kalıp Tespiti: Klavye yürüyüşlerini (örneğin, 'qwerty'), dizileri (örneğin, '12345') ve tekrarlanan karakterleri tanımlar.
- Karakter Düzeyinde TF-IDF N-gramları: İhlal edilmiş veri setlerinden sıkça geçen alt dizgileri çıkararak yaygın olarak yeniden kullanılan parola parçalarını işaretler.
- Sözlük Eşleştirme: Birden fazla sözlükten (İngilizce, isimler, yerler) kelimelerin varlığını kontrol eder.
3.3. Model Mimarisi & Eğitim
Dört model eğitildi ve karşılaştırıldı: Rastgele Orman (RF), Destek Vektör Makinesi (SVM), dizi analizi için bir Evrişimli Sinir Ağı (CNN) ve bir temel olarak Lojistik Regresyon. Veri seti %70 eğitim, %15 doğrulama ve %15 test olarak bölündü.
4. Sonuçlar & Analiz
4.1. Performans Metrikleri
Rastgele Orman modeli üstün performans gösterdi:
Test Seti Doğruluğu
%99.12
Rastgele Orman
Karşılaştırmalı Doğruluk
- SVM: %97.45
- CNN: %98.01
- Lojistik Regresyon: %95.88
Grafik Açıklaması: Bir çubuk grafik, RF modelinin diğer üç modele göre doğrulukta önemli bir öncülüğünü görsel olarak tasvir edecektir. RF modeli için bir karışıklık matrisi, güvenlik açısından kritik olan minimum yanlış negatifleri (zayıf parolaları güçlü olarak yanlış sınıflandırma) gösterecektir.
4.2. Öznitelik Önem Derecesi
Rastgele Orman'ın yorumlanabilirliği, öznitelik önem derecesi analizine olanak sağladı. Modelin karar vermesine en çok katkıda bulunan faktörler şunlardı:
- Leetspeak-Normalize Edilmiş Entropi
- Sözlük Kelimelerinin Varlığı
- Klavye Kalıp Puanı
- Yaygın 3-gramlar için TF-IDF puanı
- Ham Parola Uzunluğu
Bu analiz, yeni özniteliklerin (normalize edilmiş entropi, kalıplar) geleneksel yalnızca uzunluk tabanlı metriklerden daha ayırt edici olduğunu doğrulamaktadır.
5. Tartışma & Gelecek Çalışmalar
Uygulama Öngörüsü: Bu puanlama sistemi, gerçek zamanlı parola oluşturma arayüzlerine (örneğin, kullanıcı kaydı sırasında) entegre edilerek spesifik, uygulanabilir geri bildirim sağlayabilir (örneğin, "Parolanız yaygın bir klavye yürüyüşü 'qwerty' içeriyor."). Ayrıca mevcut parola veritabanlarının periyodik denetimleri için de kullanılabilir.
Gelecek Yönelimler:
- Uyarlanabilir Öğrenme: Modeli yeni ihlal verileri ve ortaya çıkan saldırı kalıplarıyla (örneğin, yapay zeka ile üretilmiş parola tahminleri) sürekli güncelleyin.
- Çok Dilli & Kültürel Bağlam: Sözlük ve kalıp kütüphanelerini İngilizce dışındaki dilleri ve kültüre özgü parolaları kapsayacak şekilde genişletin.
- Federe Öğrenme: Ham parolaları açığa çıkarmadan merkezi olmayan parola verileri üzerinde modeller eğitin, gizliliği artırın.
- Parola Yöneticileri ile Entegrasyon: Modeli, güçlü ancak akılda kalıcı parola öbeklerini değerlendirmek ve önermek için kullanın.
6. Analist Perspektifi: Dört Adımlı Bir Çözümleme
Temel İçgörü: Bu makale, kritik ancak genellikle gözden kaçan bir gerçeği sunuyor: parola güvenliği bir kural uyumu egzersizi değil, bir kalıp tanıma problemidir. Yazarlar, düşmanın yalnızca kısa parolalar değil, tahmin edilebilir parolalar olduğunu doğru bir şekilde tespit ediyor - bu nüans, çoğu uyum odaklı güvenlik aracında kayboluyor. %99,12'lik doğruluk oranları sadece bir sayı değil; sayısız sistemde hâlâ gömülü olan LUDS tabanlı denetleyicilere doğrudan bir suçlamadır.
Mantıksal Akış: Argüman ikna edici bir şekilde yapılandırılmıştır. Mevcut teknolojiyi (statik kurallar) yıkarak başlar, bir öğrenme sistemine olan ihtiyacı belirler ve ardından vakasını tuğla tuğla inşa eder: sağlam bir veri seti, dahice öznitelik mühendisliği (leetspeak entropisi bir ustalık eseridir) ve pragmatik bir model karşılaştırması. Rastgele Orman'ı seçmek akıllıca bir harekettir - kullanıcıya dönük güvenlik tavsiyesi için pazarlık edilemez olan yorumlanabilirlik altın standardı için, potansiyel derin öğrenme performansından küçük bir parça feda eder.
Güçlü & Zayıf Yönler: Güçlü yönü tartışmasız öznitelik setindedir. NIST SP 800-63B kılavuzlarının ötesine geçerek, soruna bürokratlar gibi değil, kriptanalistler gibi saldırıyorlar. Herhangi bir denetimli modelde olduğu gibi zayıf yönü, tarihsel verilere bağımlılığıdır. Dünün 'P@ssw0rd1!' parolasını yakalamada mükemmeldir, ancak yarının yapay zeka ile hazırlanmış, psikolojik olarak profillenmiş parolalarına karşı nasıl performans gösterir? Model reaktiftir, proaktif değildir. Ayrıca, veri seti büyük olsa da, küresel, çok dilli parola alışkanlıklarını temsil ettiği kanıtlanmamıştır.
Uygulanabilir İçgörüler: CISO'lar için çıkarım açıktır: yeni uygulama geliştirme için makine öğrenimi tabanlı parola filtrelerinin değerlendirilmesini zorunlu kılın. Geliştiriciler için, öznitelik mühendisliği şeması açık kaynaklı bir altındır - mevcut sistemlerin üzerine basit bir sezgisel katman olarak bile olsa, bu kontrolleri şimdi uygulamaya başlayın. Araştırma topluluğu bunu temel bir model olarak ele almalı ve çabalarını bir sonraki sınıra odaklamalıdır: yeni saldırı kalıplarını öngörmek için düşmanca eğitim, tıpkı üretici düşmanca ağların (GAN'lar) bilgisayarlı görüde (Zhu ve diğerlerinin CycleGAN makalesinde görüldüğü gibi) eşlenmemiş görüntü çevirisi, benzer şekilde karmaşık bir eşleme problemiyle başa çıkmak için evrimleştiği gibi.
7. Teknik Ek
7.1. Matematiksel Formülasyon
Leetspeak-Normalize Edilmiş Entropi: İlk olarak, bir normalizasyon fonksiyonu $N(p)$ bir parola dizgisini 'de-leeted' formuna eşler (örneğin, $N("P@ssw0rd") = "Password"$). Shannon entropisi $H$ daha sonra normalize edilmiş dizgi üzerinde hesaplanır: $$H(X) = -\sum_{i=1}^{n} P(x_i) \log_2 P(x_i)$$ burada $X$ normalize edilmiş parola dizgisidir, $n$ karakter setinin boyutudur ve $P(x_i)$ karakter $x_i$'nin olasılığıdır.
Karakter N-gramları için TF-IDF: İhlal edilmiş parolalardan oluşan bir derlem $D$ içinde, parola $d$'deki belirli bir n-gram $t$ (örneğin, 3 karakterlik bir dizi) için: $$\text{TF-IDF}(t, d, D) = \text{freq}(t, d) \times \log\left(\frac{|D|}{|\{d \in D : t \in d\}|}\right)$$ Yüksek bir puan, belirli bir parolada yaygın olan ancak aynı zamanda ihlal edilmiş parolalar arasında alışılmadık derecede yaygın olan, yüksek risk sinyali veren bir alt dizgiyi gösterir.
7.2. Analiz Çerçevesi Örneği
Senaryo: "M1cr0$0ft_2024" parolasının değerlendirilmesi.
Çerçeve Uygulaması:
- Temel Metrikler: Uzunluk=14, büyük harf, küçük harf, rakam, özel karakter içeriyor. Geleneksel denetleyici: GÜÇLÜ.
- Leetspeak Normalizasyonu: N("M1cr0$0ft_2024") -> "Microsoft_2024". Tahmin edilebilir bir kelime + yıl haline geldiğinden entropi önemli ölçüde düşer.
- Kalıp Tespiti: Klavye yürüyüşü yok. "2024" dizisini içeriyor.
- Sözlük & TF-IDF: Sözlük kelimesi "Microsoft" içeriyor (normalizasyondan sonra). "soft" alt dizgisi önceki ihlallerden yüksek bir TF-IDF puanına sahip olabilir.
- Model Çıkarımı: Rastgele Orman modeli, düşük normalize edilmiş entropiyi, sözlük kelimesi varlığını ve yaygın alt dizgiyi tartarak bu parolayı büyük olasılıkla ZAYIF veya ORTA olarak sınıflandırır ve spesifik geri bildirim sağlar: "Yaygın bir şirket adı ve yakın bir yıl içeriyor."
8. Kaynaklar
- Google Cloud. (2022). Siber Güvenlik Tahmini 2022.
- Ur, B., vd. (2016). "Kullanıcıların Parola Güvenliği Algıları Gerçeklikle Örtüşüyor mu?" In CHI 2016 Bildiriler Kitabı.
- Weir, M., vd. (2010). "Olasılıksal Bağlamdan Bağımsız Dilbilgisi Kullanarak Parola Kırma." In IEEE Güvenlik ve Gizlilik Sempozyumu.
- Zhu, J., Park, T., Isola, P., & Efros, A. A. (2017). "Döngü-Tutarlı Düşmanca Ağlar Kullanarak Eşlenmemiş Görüntüden Görüntüye Çeviri." In ICCV 2017 Bildiriler Kitabı. (Düşmanca çerçeve evrimi örneği olarak alıntılanmıştır).
- Ulusal Standartlar ve Teknoloji Enstitüsü (NIST). (2017). Dijital Kimlik Kılavuzları (SP 800-63B).