SODA ADVANCE: Analisis Kekuatan Kata Laluan melalui Data Rangkaian Sosial dan LLM

1. Pengenalan

Kata laluan kekal sebagai pertahanan utama terhadap akses tanpa kebenaran, namun tingkah laku pengguna sering mengutamakan kemudahan ingatan berbanding keselamatan. Pemeriksa kekuatan kata laluan tradisional, yang bergantung pada peraturan sintaks statik (cth., panjang, kepelbagaian aksara), gagal mengambil kira konteks semantik pilihan pengguna. Pengguna kerap memperoleh kata laluan daripada maklumat peribadi—nama, hari lahir, hobi—sebahagian besarnya kini tersedia secara terbuka di platform media sosial.

Kertas ini memperkenalkan SODA ADVANCE, alat pembinaan semula data yang diperluaskan dengan modul untuk menilai kekuatan kata laluan dengan memanfaatkan data rangkaian sosial yang tersedia secara terbuka. Tambahan pula, ia menyiasat peranan dwi Model Bahasa Besar (LLM): sebagai aset berpotensi untuk menjana kata laluan yang kuat dan diperibadikan serta menilai keselamatan, dan sebagai ancaman besar jika disalahgunakan untuk memecahkan kata laluan.

Penyelidikan ini dipandu oleh tiga soalan utama (RQ): Bolehkah LLM menjana kata laluan kompleks namun mudah diingati berdasarkan data awam (RQ1)? Bolehkah mereka menilai kekuatan kata laluan dengan berkesan dengan mempertimbangkan maklumat peribadi (RQ2)? Dan bagaimana penyebaran data merentasi pelbagai rangkaian mempengaruhi keupayaan ini (RQ3)?

2. Kerangka Kerja SODA ADVANCE

SODA ADVANCE adalah evolusi alat SODA, direka khusus untuk menilai kerentanan kata laluan dengan membina semula jejak digital pengguna daripada sumber awam.

2.1. Seni Bina Teras & Modul

Seni bina kerangka kerja, seperti yang digambarkan dalam Rajah 1 PDF, melibatkan beberapa modul bersepadu:

Pengagregatan Data: Pengumpul web dan pengikis menuai data pengguna yang tersedia secara terbuka (maklumat profil, siaran, foto) daripada pelbagai rangkaian sosial.
Pembinaan Semula & Penggabungan Data: Maklumat daripada sumber berbeza digabungkan untuk membina profil pengguna yang komprehensif. Teknik seperti pengecaman wajah boleh menghubungkan foto profil kepada identiti lain.
Modul Kekuatan Kata Laluan: Modul analisis teras mengambil kata laluan input dan profil pengguna yang dibina semula untuk menilai kekuatan menggunakan pelbagai metrik.

Penerangan Carta (Gambaran Keseluruhan Rajah 1): Gambar rajah menggambarkan saluran bermula dengan pengumpulan data (Pengumpul Web/Pengikis) daripada rangkaian sosial, membawa kepada modul penggabungan (Pengecaman Wajah, Penggabungan Data). Profil yang dibina semula (mengandungi NAMA, NAMA KELUARGA, BANDAR, dll.) dan KATA LALUAN INPUT dimasukkan ke dalam modul pengagregatan yang mengira metrik (CUPP, LEET, COVERAGE, FORCE, CPS) dan mengeluarkan skor kekuatan, divisualkan dengan penimbang yang condong ke arah "YA" atau "TIDAK."

2.2. Metrik Kekuatan Kata Laluan

SODA ADVANCE menggunakan dan memperluaskan beberapa metrik yang telah mantap:

CUPP (Common User Password Profiler): Memeriksa sama ada kata laluan ditemui dalam kamus biasa atau corak berkaitan pengguna (skor: 1 jika biasa, lebih rendah jika tidak).
Transformasi LEET Speak: Menilai rintangan terhadap penggantian aksara mudah (cth., a→@, e→3). Skor lebih rendah menunjukkan transformasi leet yang lebih tinggi, mencadangkan percubaan untuk mengaburi perkataan asas yang lemah.
COVERAGE: Mengukur perkadaran data peribadi pengguna yang dibina semula (token) yang hadir dalam kata laluan. Liputan tinggi adalah tidak baik.
FORCE (Kekuatan Kata Laluan): Metrik komposit menganggarkan masa pemecahan berdasarkan panjang, set aksara, dan entropi.

Kertas ini memperkenalkan metrik novel Kekuatan Kata Laluan Kumulatif (CPS), yang menggabungkan skor daripada kaedah di atas menjadi satu penunjuk kekuatan yang komprehensif.

3. LLM: Peranan Dwi dalam Keselamatan Kata Laluan

Penyelidikan ini mengandaikan bahawa LLM seperti GPT-4 mewakili anjakan paradigma, bertindak sebagai alat pertahanan yang berkuasa dan senjata serangan yang berkesan.

3.1. LLM untuk Penjanaan Kata Laluan

Apabila diprompt dengan data profil awam pengguna, LLM boleh menjana kata laluan yang:

Kuat: Mereka menggabungkan entropi tinggi, panjang, dan kepelbagaian aksara.
Diperibadikan & Mudah Diingati: Mereka boleh mencipta kata laluan berdasarkan minat pengguna (cth., "OrangeSystem23" untuk pengguna bernama George yang suka oren dan belajar sistem), menjadikannya lebih mudah diingati berbanding rentetan rawak.
Sedar Konteks: Mereka mengelakkan perangkap data peribadi yang jelas jika diarahkan berbuat demikian.

Keupayaan ini menjawab RQ1 secara afirmatif tetapi juga menyerlahkan ancaman: penyerang boleh menggunakan teknik yang sama untuk menjana tekaan kata laluan yang sangat berkemungkinan.

3.2. LLM untuk Penilaian Kata Laluan

Selain penjanaan, LLM boleh diprompt untuk menilai kata laluan yang diberikan terhadap profil pengguna. Mereka boleh membuat penaakulan secara semantik, mengenal pasti hubungan yang tidak jelas (cth., "Orange123" mungkin lemah untuk pengguna yang pasukan bola keranjang kegemarannya ialah Orlando Magic dan hari lahirnya ialah 3 Disember). Penilaian kontekstual ini mengatasi pemeriksa berasaskan peraturan tradisional, menangani RQ2 secara positif.

4. Metodologi Eksperimen & Keputusan

4.1. Persediaan Eksperimen

Kajian ini melibatkan 100 pengguna sebenar. Penyelidik membina semula profil awam mereka daripada rangkaian sosial. Dua saluran utama diuji:

Kata Laluan Dijana LLM: LLM diberikan profil pengguna dan diprompt untuk menjana kata laluan "kuat tetapi mudah diingati".
Kata Laluan Dinilai LLM: LLM diberikan profil pengguna dan satu set calon kata laluan (termasuk yang lemah diperoleh daripada profil) untuk mengisih atau menilai kekuatan mereka.

Ini dibandingkan dengan penilaian daripada modul berasaskan metrik SODA ADVANCE.

4.2. Penemuan Utama

Kejayaan Penjanaan LLM

Tinggi

LLM secara konsisten menjana kata laluan yang kedua-duanya kuat (entropi tinggi) dan diperibadikan secara kontekstual untuk pengguna.

Ketepatan Penilaian

Lebih Unggul dengan Konteks

LLM mengatasi metrik tradisional dalam mengenal pasti kata laluan lemah secara semantik apabila diberikan data profil pengguna.

Kesan Pelbagai Rangkaian (RQ3)

Signifikan

Kekayaan dan lebihan data merentasi pelbagai platform (Facebook, LinkedIn, Instagram) meningkatkan ketepatan pembinaan semula SODA ADVANCE dan keberkesanan penjanaan/penilaian berasaskan LLM secara drastik.

Eksperimen menunjukkan bahawa ketersediaan awam maklumat peribadi bertindak sebagai pendarab daya untuk kedua-dua alat pertahanan dan penyerang berpotensi yang menggunakan pendekatan berasaskan AI yang serupa.

5. Analisis Teknikal & Kerangka Kerja

5.1. Formulasi Matematik

Metrik novel Kekuatan Kata Laluan Kumulatif (CPS) dikonsepkan sebagai pengagregatan berwajaran skor ternormalisasi daripada metrik individu. Walaupun formula tepat tidak diterangkan sepenuhnya dalam petikan, ia boleh disimpulkan sebagai:

$CPS = 1 - \frac{1}{N} \sum_{i=1}^{N} w_i \cdot S_i$

Di mana:

$N$ ialah bilangan metrik asas (cth., CUPP, LEET, COVERAGE, FORCE).
$S_i$ ialah skor ternormalisasi untuk metrik $i$ (selalunya di mana 1 menunjukkan risiko/kerentanan tinggi).
$w_i$ ialah pemberat yang diberikan kepada metrik $i$, dengan $\sum w_i = 1$.

Skor CPS yang menghampiri 1 menunjukkan kata laluan yang lebih kuat. Metrik LEET itu sendiri boleh dimodelkan. Jika $L$ ialah set transformasi leet (cth., {'a': ['@','4'], 'e': ['3']...}), dan $P$ ialah kata laluan, darjah transformasi leet $\ell$ boleh jadi:

$\ell(P) = \frac{\text{bilangan aksara dalam } P \text{ yang mempunyai penggantian leet digunakan}}{\text{panjang } P}$

$\ell(P)$ yang tinggi mencadangkan kata laluan mungkin pengaburan mudah perkataan kamus.

5.2. Contoh Kerangka Kerja Analisis

Kajian Kes: Menilai "GeorgeCali1023"

Input:

Kata Laluan: "GeorgeCali1023"
Profil Dibina Semula: {Nama: "George", Nama Keluarga: "Smith", Pendidikan: "University of California", Tarikh Lahir: "1994-01-23", Bandar: "Cagliari"}

Aplikasi Kerangka Kerja:

CUPP: Memeriksa "George", "Smith", "California", "Cal". "Cali" adalah padanan langsung untuk singkatan biasa California. Skor: Risiko Tinggi (cth., 0.8).
LEET: Tiada penggantian aksara (a→@, i→1, dll.). Skor: Transformasi Rendah (cth., 0.1).
COVERAGE: Token "George" dan "Cali" (daripada California) adalah langsung daripada profil. "1023" boleh diperoleh daripada bulan/hari lahir (Jan 23 -> 1/23). Liputan tinggi. Skor: Risiko Tinggi (cth., 0.9).
FORCE: Panjang 13, campuran huruf besar/kecil/angka. Entropi agak tinggi secara sintaks semata-mata. Skor: Kekuatan Sederhana (cth., 0.4 risiko).
Penilaian Semantik LLM: Prompt: "Seberapa kuat kata laluan 'GeorgeCali1023' untuk pengguna bernama George Smith yang menghadiri University of California dan dilahirkan pada 23 Jan 1994?" Output LLM: "Lemah. Ia menggunakan nama pengguna secara langsung, singkatan untuk universiti mereka, dan kemungkinan bulan dan hari lahir mereka. Mudah diteka daripada data awam."

Kesimpulan: Walaupun entropi tradisional (FORCE) mencadangkan kekuatan sederhana, metrik kontekstual (CUPP, COVERAGE) dan penilaian LLM menandakannya sebagai lemah secara kritikal disebabkan korelasi semantik tinggi dengan data peribadi awam. Ini menggambarkan tesis teras kertas ini.

6. Perspektif Analis Kritikal

Pandangan Teras: Kertas ini berjaya mengetengahkan satu kebenaran yang menakutkan dan tidak dapat dielakkan: era menilai kata laluan dalam vakum kontekstual sudah berakhir. Kata laluan "kuat" anda hanya sekuat pautan terlemah dalam jejak digital awam anda. SODA ADVANCE memformalkan ancaman ini, tetapi pengubah permainan sebenar ialah demonstrasi bahawa LLM bukan sahaja mengautomasikan pemecahan—mereka memahaminya. Ini mengalihkan permukaan serangan daripada pengiraan kekerasan kepada penaakulan semantik, satu paradigma yang jauh lebih cekap dan berbahaya.

Aliran Logik: Hujah ini menarik: 1) Data peribadi adalah awam (fakta), 2) Kata laluan diperoleh daripada data peribadi (fakta), 3) Oleh itu, data awam boleh memecahkan kata laluan (ditetapkan oleh alat seperti SODA). 4) LLM sangat mahir dalam memproses dan menjana bahasa, termasuk data peribadi dan corak kata laluan. 5) Maka, LLM adalah teknologi dwi-guna utama untuk domain ini. Penyelidikan ini mengesahkan aliran ini dengan data empirikal secara bersih.

Kekuatan & Kelemahan:

Kekuatan: Pemodelan Ancaman Proaktif. Kertas ini bukan sekadar mendokumenkan kerentanan; ia memodelkan alat serangan generasi seterusnya (didorong AI, sedar konteks) sebelum ia menjadi arus perdana. Ini sangat berharga untuk pertahanan.
Kekuatan: Pengesahan Praktikal. Menggunakan 100 pengguna sebenar membumikan penyelidikan dalam realiti, bukan teori.
Kelemahan: Ketelusan LLM. Kertas ini memperlakukan LLM sebagai kotak hitam. Mengapa LLM menganggap kata laluan lemah? Tanpa kebolehjelasan, sukar untuk mempercayai atau mengintegrasikannya sepenuhnya ke dalam sistem automatik. Bandingkan ini dengan metrik CUPP atau COVERAGE yang boleh ditafsir, walaupun lebih mudah.
Kelemahan Signifikan: Titik Buta Etika & Adversarial. Kertas ini menyebut ancaman secara ringkas tetapi tidak menangani perlumbaan senjata besar yang disiratkannya. Jika penyelidik boleh melakukan ini, begitu juga pelaku berniat jahat—berpotensi pada skala besar. Di mana cadangan mitigasi atau pertimbangan peraturan untuk vektor ancaman baru ini?

Pandangan Boleh Tindak:

Untuk Pasukan Keselamatan: Segera kurangkan keutamaan meter kekuatan kata laluan tradisional. Labur dalam atau bangunkan alat yang melakukan pembinaan semula seperti SODA terhadap data awam eksekutif dan pekerja utama anda untuk mengaudit kelayakan mereka.
Untuk Pengurus Kata Laluan & Pembekal SaaS: Integrasikan pemeriksaan kekuatan kontekstual. Pengurus kata laluan harus memberi amaran: "Kata laluan ini kuat, tetapi kami menemui nama kucing anda 'Whiskers' dan tahun lahir '1988' di Instagram awam anda. Pertimbangkan untuk menukarnya."
Untuk Penyelidik: Langkah seterusnya yang mendesak ialah Pengerasan LLM Adversarial. Bolehkah kita melatih atau memprompt LLM untuk menjana kata laluan yang menentang keupayaan analitikal mereka sendiri? Ini serupa dengan Rangkaian Adversarial Generatif (GAN) yang digunakan dalam penjanaan imej, di mana penjana dan pembeza bersaing. "GAN Kata Laluan" boleh menjadi pertahanan yang mengubah permainan.
Untuk Semua: Ini adalah paku terakhir dalam keranda untuk kata laluan sebagai faktor pengesahan tunggal. Kesimpulan tersirat kertas ini menjerit untuk penerimaan dipercepat MFA tahan penipuan (WebAuthn/FIDO2) dan teknologi tanpa kata laluan.

Penyelidikan oleh Atzori et al. adalah panggilan bangun yang penting. Ia bukan sekadar tentang pemeriksa kata laluan yang lebih baik; ia tentang mengakui bahawa AI telah mengubah landskap keselamatan siber secara asas, menjadikan tabiat dan alat lama kita usang secara berbahaya.

7. Aplikasi & Hala Tuju Masa Depan

Implikasi penyelidikan ini melangkaui minat akademik:

Audit Keselamatan Korporat Proaktif: Perusahaan boleh menggunakan alat seperti SODA ADVANCE secara dalaman untuk mengaudit amalan kata laluan pekerja terhadap jejak digital profesional mereka (LinkedIn, bio korporat), mengurangkan risiko dalaman dan spear-phishing.
Integrasi dengan Pengurusan Identiti & Akses (IAM): Sistem IAM masa depan boleh memasukkan modul pasif berterusan yang memantau perubahan dalam data sosial awam pekerja dan mencetuskan tetapan semula kata laluan wajib jika korelasi risiko tinggi dikesan.
Penjanaan Kata Laluan Berkuasa AI, Memelihara Privasi: Evolusi seterusnya ialah LLM pada peranti (cth., model pada peranti Apple) yang menjana kata laluan kuat tanpa menghantar data peribadi ke awan, menggabungkan kekuatan AI dengan privasi pengguna. Penyelidikan dalam pembelajaran gabungan untuk LLM, seperti yang diterokai oleh institusi seperti Google AI, boleh digunakan secara langsung di sini.
Pemiawaian Metrik Kata Laluan Kontekstual: Metrik CPS atau penggantinya boleh berkembang menjadi piawaian baru (melangkaui garis panduan NIST) untuk persekitaran keselamatan tinggi, mewajibkan pemeriksaan terhadap maklumat yang tersedia secara awam.
Literasi Digital dan Pendidikan Privasi: Penyelidikan ini memberikan contoh konkrit dan menakutkan untuk mendidik orang awam. Menunjukkan bagaimana beberapa siaran sosial boleh memecahkan kata laluan adalah penghalang kuat terhadap perkongsian berlebihan.
Alat Forensik dan Siasatan: Penguatkuasaan undang-undang dan penggodam etika boleh menggunakan teknik ini dalam siasatan forensik untuk mengakses peranti atau akaun yang selamat di mana kaedah tradisional gagal, menimbulkan persoalan etika dan undang-undang penting yang memerlukan pembangunan selari.

Pertemuan alat OSINT (Perisikan Sumber Terbuka), teknik pembinaan semula data, dan AI generatif menandakan sempadan baru dalam keselamatan. Masa depan terletak bukan pada mencipta kata laluan yang semakin kompleks, tetapi pada membangunkan sistem pintar yang memahami dan mempertahankan terhadap hubungan semantik yang kita bocorkan secara tidak dapat dielakkan dalam talian.

8. Rujukan

Atzori, M., Calò, E., Caruccio, L., Cirillo, S., Polese, G., & Solimando, G. (2025). Password Strength Analysis Through Social Network Data Exposure: A Combined Approach Relying on Data Reconstruction and Generative Models. SEBD 2025 Proceedings.
Author(s). (Year). SODA: A Data Reconstruction Tool. Relevant Conference or Journal. (Reference [2] in PDF).
Author(s). (Year). On data reconstruction and semantic context. Relevant Publication. (Reference [3] in PDF).
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems (NeurIPS). (External source on GANs).
Author(s). (Year). FORCE password metric. Relevant Publication. (Reference [5] in PDF).
Author(s). (Year). LEET speak transformation analysis. Relevant Publication. (Reference [6] in PDF).
Author(s). (Year). COVERAGE metric for passwords. Relevant Publication. (Reference [7] in PDF).
National Institute of Standards and Technology (NIST). (2017). Digital Identity Guidelines (SP 800-63B). https://pages.nist.gov/800-63-3/sp800-63b.html (External authoritative source on authentication).
Author(s). (Year). CUPP - Common User Password Profiler. Relevant Publication. (Reference [9] in PDF).
Google AI. (2023). Federated Learning and Analytics. https://ai.google/research/teams/federated-learning (External source on privacy-preserving AI).