Entropi Jangkaan: Satu Metrik Baharu untuk Penilaian Kekuatan Kata Laluan

1. Pengenalan & Motivasi

Kertas kerja ini memperkenalkan Entropi Jangkaan, satu metrik baharu yang direka untuk menganggarkan kekuatan kata laluan rawak atau seakan-akan rawak. Motivasi ini berpunca daripada jurang praktikal dalam alat penilaian kekuatan kata laluan sedia ada. Formula klasik berasaskan kombinatorik (contohnya, $\log_2(\text{ruang aksara}^{\text{panjang}})$) mengeluarkan hasil dalam puluhan bit, manakala Suit Anggaran Entropi NIST, piawaian industri, memberikan skor entropi-min ternormal antara 0 dan 1. Percanggahan ini menyukarkan perbandingan langsung dan interpretasi intuitif. Entropi Jangkaan merapatkan jurang ini dengan memberikan anggaran kekuatan pada skala 0-1 yang sama seperti alat NIST, di mana nilai, contohnya 0.4, menunjukkan penyerang mesti mencari secara menyeluruh sekurang-kurangnya 40% daripada jumlah tekaan yang mungkin untuk mencari kata laluan tersebut.

Kerja ini dikontekstualisasikan dalam projek "PHY2APP", yang memfokuskan pada penjanaan kata laluan simetri yang kuat untuk peruntukan peranti Wi-Fi (protokol ComPass) menggunakan kaedah Keselamatan Lapisan Fizikal, menekankan keperluan untuk metrik kekuatan yang teguh dan boleh skala.

2. Pelbagai Takrifan Entropi

Entropi mengukur kekacauan, kerawakan, atau ketidakpastian. Takrifan yang berbeza digunakan secara berbeza untuk kekuatan kata laluan.

2.1 Entropi-Min

Ditakrifkan sebagai $H_{\infty} = -\log_2(\max(p_i))$, di mana $p_i$ ialah kebarangkalian sesuatu elemen. Ia mewakili senario terburuk, mengukur kesukaran untuk meneka hasil yang paling berkemungkinan. Ini adalah asas untuk output Suit NIST.

2.2 Entropi Shannon

Ditakrifkan sebagai $H_1 = -\sum_{i=1}^{N} p_i \log_2 p_i$. Ia memberikan ukuran purata kandungan maklumat tetapi dikritik kerana tidak berkaitan dengan kesukaran meneka sebenar dalam konteks retakan kata laluan, kerana ia mengabaikan panjang kata laluan dan strategi optimum penyerang.

2.3 Entropi Hartley

Ditakrifkan sebagai $H_0 = \log_2 N$, ia hanya mengukur saiz taburan (saiz abjad), mengabaikan sepenuhnya kebarangkalian aksara.

2.4 Entropi Tebakan

Ditakrifkan sebagai $G = \sum_{i=1}^{N} p_i \cdot i$, di mana tekaan disusun mengikut kebarangkalian menurun. Ini mengukur bilangan tekaan dijangka yang diperlukan oleh penyerang optimum. Ia lebih berkaitan secara langsung dengan masa retakan praktikal tetapi tidak dinormal.

3. Entropi Jangkaan

3.1 Takrifan & Formulasi

Entropi Jangkaan dibina berdasarkan konsep Entropi Tebakan tetapi dinormal kepada skala [0, 1]. Inti patinya adalah untuk menganggarkan kekuatan daripada komposisi satu kata laluan. Ia mempertimbangkan set aksara tak bersilang: huruf kecil $L$ (|L|=26), huruf besar $U$ (26), digit $D$ (10), dan simbol $S$ (32), membentuk ruang aksara keseluruhan $K$ bersaiz 94 untuk bahasa Inggeris.

Walaupun terbitan matematik penuh untuk satu kata laluan diimplikasikan tetapi tidak dijelaskan sepenuhnya dalam petikan yang diberikan, metrik ini pada dasarnya menormal usaha yang diperlukan oleh penyerang optimum relatif kepada ruang carian keseluruhan. Jika $G$ ialah Entropi Tebakan dan $N$ ialah jumlah bilangan kata laluan yang mungkin (contohnya, $94^{\text{panjang}}$ untuk ruang penuh), bentuk ternormal secara konsep boleh dikaitkan dengan $E \approx G / N_{eff}$, di mana $N_{eff}$ ialah saiz ruang carian efektif yang mempertimbangkan komposisi kata laluan.

3.2 Interpretasi & Skala

Inovasi utama adalah skalanya yang boleh ditafsir. Nilai Entropi Jangkaan $\alpha$ (di mana $0 \le \alpha \le 1$) bermaksud penyerang mesti melakukan sekurang-kurangnya pecahan $\alpha$ daripada jumlah tekaan yang diperlukan (dalam susunan optimum) untuk memecahkan kata laluan. Nilai 1 menunjukkan kerawakan ideal di mana penyerang mesti melakukan carian kekerasan penuh. Ini selaras secara intuitif dengan skala entropi-min NIST, memudahkan perbandingan dan pembuatan keputusan untuk pereka sistem.

4. Inti Pati & Perspektif Penganalisis

Inti Pati: Reaz dan Wunder bukan sekadar mencadangkan satu lagi metrik entropi; mereka cuba menyelesaikan jurang kritikal kebolehgunaan dan kebolehinterpretasian dalam kejuruteraan keselamatan. Masalah sebenar bukanlah kekurangan ukuran kerumitan, tetapi geseran kognitif apabila alat kombinatorik menjerit "80 bit!" dan NIST berbisik "0.7". Entropi Jangkaan adalah penterjemah pragmatik, menukar kekuatan kriptografi kepada skor risiko kebarangkalian yang boleh ditindak pada papan pemuka bersatu.

Aliran Logik: Hujahnya elegan dan mudah: 1) Metrik sedia ada berada di planet berbeza (bit vs. skor ternormal), menyebabkan kekeliruan. 2) Entropi Tebakan ($G$) lebih dekat dengan realiti penyerang tetapi tidak terbatas. 3) Oleh itu, normal $G$ relatif kepada ruang carian efektif untuk mencipta skor 0-1 yang memetakan secara langsung kepada peratusan usaha yang diperlukan penyerang. Ini merapatkan jurang antara teori (entropi-min NIST) dan praktikal (beban kerja pemecah kata laluan).

Kekuatan & Kelemahan: Kekuatannya adalah kesederhanaan elegan dan kebolehinterpretasian serta-merta—rahmat bagi pembuat dasar dan arkitek sistem. Walau bagaimanapun, syaitan berada dalam andaian taburan. Ketepatan metrik sangat bergantung pada pemodelan yang betul bagi taburan kebarangkalian $p_i$ aksara dalam satu sampel kata laluan tunggal, yang merupakan masalah statistik yang terkenal sukar. Berbeza dengan Suit NIST yang menguji aliran bit panjang, mengaplikasikan ini kepada kata laluan 16 aksara pendek memerlukan penganggar teguh yang mungkin sensitif kepada bias. Kertas kerja, daripada petikan, tidak memperincikan sepenuhnya proses anggaran ini untuk satu contoh, yang merupakan tumit Achillesnya.

Wawasan Boleh Tindak: Untuk pasukan keselamatan, metrik ini boleh disepadukan ke dalam API penciptaan kata laluan atau pemalam Active Directory untuk memberikan maklum balas kekuatan intuitif masa nyata ("Kata laluan anda memerlukan 60% tekaan untuk dipecahkan"). Untuk penyelidik, langkah seterusnya mestilah pengesahan empirikal berskala besar yang ketat terhadap alat pemecahan dunia sebenar (seperti Hashcat atau John the Ripper) untuk menentukur model. Adakah Entropi Jangkaan 0.8 benar-benar bermaksud 80% ruang carian? Ini memerlukan bukti terhadap model AI bersifat permusuhan, serupa dengan bagaimana GAN digunakan untuk menyerang domain keselamatan lain. Konsep ini menjanjikan, tetapi utiliti operasinya bergantung pada pengesahan telus, semakan rakan sebaya di luar persekitaran terkawal kata laluan janaan mesin.

5. Butiran Teknikal & Formulasi Matematik

Berdasarkan konsep yang digariskan, Entropi Jangkaan $H_E$ untuk kata laluan boleh dirangka secara konsep. Biarkan kata laluan panjang $l$ diambil daripada abjad $\mathcal{A}$ dengan taburan kebarangkalian bersekutu untuk setiap kedudukan aksara (yang mungkin dianggarkan daripada kata laluan itu sendiri atau korpus rujukan).

Vektor Kebarangkalian Tersusun: Untuk ruang kata laluan keseluruhan bersaiz $N = |\mathcal{A}|^l$, seseorang secara teori boleh menyusun semua kata laluan yang mungkin mengikut kebarangkalian menurun untuk dipilih (mengikut model generatif).
Entropi Tebakan: Bilangan tekaan dijangkan untuk penyerang optimum ialah $G = \sum_{i=1}^{N} p_i \cdot i$, di mana $p_i$ ialah kebarangkalian kata laluan ke-$i$ yang paling berkemungkinan.
Penormalan: Nilai $G$ maksimum yang mungkin untuk taburan seragam ialah $(N+1)/2$. Ukuran usaha ternormal boleh ditakrifkan sebagai: $$ H_E \approx \frac{2 \cdot G - 1}{N} $$ Ini akan memetakan taburan seragam (kerawakan sempurna) kepada $H_E \to 1$ apabila $N$ membesar, dan kata laluan sangat boleh diramal (di mana $G$ kecil) kepada nilai hampir 0.
Anggaran Praktikal: Untuk satu kata laluan, seseorang mesti menganggarkan "pangkat"nya atau jisim kebarangkalian kumulatif semua kata laluan yang lebih berkemungkinan daripadanya. Jika jisim kebarangkalian kumulatif kata laluan sehingga pangkatnya ialah $\alpha$, maka $H_E \approx 1 - \alpha$. Ini selaras dengan penerangan kertas kerja bahawa nilai 0.4 bermaksud mencari 40% ruang.

Algoritma tepat dan cekap untuk menganggarkan ini daripada satu sampel adalah sumbangan teknikal teras yang diimplikasikan oleh penulis.

6. Keputusan Eksperimen & Penerangan Carta

Nota: Petikan PDF yang diberikan tidak mengandungi keputusan eksperimen atau carta khusus. Berikut adalah penerangan berdasarkan apa yang akan terlibat dalam kajian pengesahan tipikal untuk metrik sedemikian.

Penilaian komprehensif Entropi Jangkaan mungkin melibatkan carta berikut:

Carta 1: Plot Serakan Perbandingan Metrik. Carta ini akan memplot kata laluan pada dua paksi: Paksi-X menunjukkan kekuatan bit klasik (contohnya, $\log_2(94^l)$), dan Paksi-Y menunjukkan Entropi Jangkaan (0-1). Awan titik akan mendedahkan korelasi (atau ketiadaannya) antara dua ukuran, menyerlahkan kata laluan yang panjang (kekuatan bit tinggi) tetapi boleh diramal (Entropi Jangkaan rendah).
Carta 2: Lengkung Rintangan Pemecahan. Ini akan menunjukkan pecahan sebenar ruang carian yang mesti dilalui oleh penyerang (menggunakan alat seperti Hashcat dengan serangan berasaskan peraturan) untuk memecahkan kata laluan yang dikumpulkan mengikut skor Entropi Jangkaan mereka (contohnya, 0.0-0.1, 0.1-0.2...). Metrik ideal akan menunjukkan garis pepenjuru sempurna di mana usaha diramal (Entropi) sama dengan usaha sebenar. Sisihan daripada pepenjuru menunjukkan ralat anggaran.
Carta 3: Taburan Skor. Histogram yang menunjukkan skor Entropi Jangkaan untuk jenis kata laluan berbeza: janaan mesin (contohnya, daripada protokol ComPass), janaan manusia dengan peraturan, dan janaan manusia tanpa peraturan. Ini akan menunjukkan secara visual keupayaan metrik untuk membezakan antara kaedah penjanaan kata laluan.

Keputusan utama untuk disahkan adalah dakwaan: "Mempunyai entropi jangkaan nilai tertentu, contohnya 0.4 bermaksud penyerang mesti mencari secara menyeluruh sekurang-kurangnya 40% daripada jumlah bilangan tekaan." Ini memerlukan simulasi serangan empirikal.

7. Kerangka Analisis: Contoh Kes

Skenario: Menilai dua kata laluan 12-aksara untuk sistem yang menggunakan ruang ASCII boleh cetak 94-aksara.

Kata Laluan A (Pilihan Manusia): Summer2024!
Kata Laluan B (Janaan Mesin): k9$Lp@2W#r1Z

Kekuatan Bit Klasik: Kedua-duanya mempunyai maksimum teori yang sama: $\log_2(94^{12}) \approx 78.7$ bit.

Analisis Entropi Jangkaan:

Kata Laluan A: Strukturnya biasa: perkataan kamus ("Summer"), tahun boleh diramal ("2024"), dan simbol akhiran biasa ("!"). Model kebarangkalian (seperti rantai Markov dilatih pada kata laluan bocor) akan memberikan kebarangkalian tinggi kepada corak ini. Pangkatnya dalam senarai tersusun kata laluan berkemungkinan akan sangat rendah, bermaksud kebarangkalian kumulatif kata laluan yang lebih berkemungkinan adalah tinggi. Oleh itu, Entropi Jangkaannya akan rendah (contohnya, 0.05-0.2), menunjukkan penyerang berkemungkinan menemuinya dalam 5-20% pertama susunan tekaan optimum.
Kata Laluan B: Ia kelihatan rawak, tanpa corak jelas, mencampurkan set aksara setiap kedudukan. Model kebarangkalian akan memberikan kebarangkalian yang sangat rendah, hampir seragam, kepada jujukan khusus ini. Pangkatnya akan sangat tinggi (hampir pertengahan/akhir senarai tersusun). Oleh itu, Entropi Jangkaannya akan tinggi (contohnya, 0.7-0.95), menunjukkan penyerang mesti mencari kebanyakan ruang.

Contoh ini menunjukkan bagaimana Entropi Jangkaan memberikan penilaian risiko yang lebih bernuansa dan realistik berbanding kekuatan bit yang sama daripada formula klasik.

8. Prospek Aplikasi & Hala Tuju Masa Depan

Aplikasi Segera:

Pengukur Kekuatan Kata Laluan Masa Nyata: Mengintegrasikan Entropi Jangkaan ke dalam aliran pendaftaran web dan aplikasi untuk memberikan pengguna penunjuk kekuatan intuitif berasaskan peratusan.
Penguatkuasaan Dasar Keselamatan: Organisasi boleh menetapkan ambang minimum Entropi Jangkaan (contohnya, 0.6) dan bukannya hanya peraturan kerumitan, mengikat dasar secara langsung kepada usaha pemecahan yang dianggarkan.
Audit Sistem Automatik: Mengimbas pangkalan data kata laluan sedia ada (dihash) untuk menganggarkan taburan Entropi Jangkaan kolektif dan mengenal pasti akaun dengan kata laluan yang sangat lemah.

Hala Tuju Penyelidikan Masa Depan:

Penganggar Satu-Sampel Teguh: Membangunkan dan membandingkan kaedah statistik (contohnya, menggunakan model bahasa neural, model n-gram, atau penapis Bloom) untuk menganggarkan dengan tepat kebarangkalian/pangkat satu kata laluan tunggal daripada mana $H_E$ diperoleh.
Penilaian Bersifat Permusuhan: Menguji metrik terhadap alat pemecahan kata laluan canggih dan model AI (contohnya, PassGAN, adaptasi rangka kerja Rangkaian Permusuhan Generatif untuk kata laluan) untuk melihat sama ada usaha diramal sepadan dengan masa pemecahan sebenar.
Melangkaui Kata Laluan: Mengaplikasikan konsep "pecahan usaha" ternormal kepada rahsia lain, seperti kunci kriptografi (di mana bit adalah piawai) atau templat biometrik, untuk mencipta metrik kekuatan bersatu merentasi faktor pengesahan berbeza.
Usaha Pemiawaian: Mencadangkan Entropi Jangkaan atau prinsipnya kepada badan seperti NIST untuk dimasukkan ke dalam semakan masa depan garis panduan identiti digital (contohnya, SP 800-63B).

9. Rujukan

Kementerian Pendidikan dan Penyelidikan Persekutuan Jerman (BMBF). Butiran geran untuk projek PHY2APP.
M. Dell'Amico, P. Michiardi, Y. Roudier, "Password Strength: An Empirical Analysis," dalam Proceedings of IEEE INFOCOM, 2010. (Mewakili tinjauan kaedah kekuatan kata laluan).
Institut Piawaian dan Teknologi Kebangsaan (NIST). Entropy Estimation Suite. [Dalam Talian]. Boleh didapati: https://github.com/usnistgov/entropy-estimation
Penerbitan Khas NIST 800-90B. Recommendation for the Entropy Sources Used for Random Bit Generation.
J. Kelsey, K. A. McKay, M. Turan, "Predictive Models for Min-Entropy Estimation," dalam Proceedings of CHES, 2015.
K. Reaz, G. Wunder, "ComPass: A Protocol for Secure and Usable Wi-Fi Device Provisioning," dalam Proceedings of ACM WiSec, 2023. (Diandaikan daripada konteks).
C. E. Shannon, "A Mathematical Theory of Communication," The Bell System Technical Journal, vol. 27, pp. 379–423, 623–656, 1948.
R. V. L. Hartley, "Transmission of Information," The Bell System Technical Journal, vol. 7, no. 3, pp. 535–563, 1928.
J. Bonneau, "The Science of Guessing: Analyzing an Anonymized Corpus of 70 Million Passwords," dalam Proceedings of IEEE Symposium on Security and Privacy, 2012.
J. L. Massey, "Guessing and Entropy," dalam Proceedings of IEEE International Symposium on Information Theory (ISIT), 1994.
C. Cachin, Entropy Measures and Unconditional Security in Cryptography. PhD Thesis, ETH Zurich, 1997.
J. O. Pliam, "The Disparity between Work and Entropy in Cryptology," 1998. [Dalam Talian]. Boleh didapati: https://eprint.iacr.org/1998/024
B. Hitaj, P. Gasti, G. Ateniese, F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," dalam Proceedings of ACNS, 2019. (Rujukan luaran untuk penilaian AI bersifat permusuhan).