SODA ADVANCE: Password Strength Analysis Based on Social Network Data and Large Language Models

1. Utangulizi

Nenosiri bado ndio njia kuu ya kuzuia ufikiaji usioidhinishwa, lakini tabia ya watumiaji mara nyingi hupendelea urahisi wa kukumbuka kuliko usalama. Vichunguzi vya nguvu ya nenosiri vya jadi hutegemea kanuni za kisintaksia zisizobadilika (k.m.v., urefu, aina za herufi), na haziangazii muktadha wa maana wa kile kinachochaguliwa na mtumiaji.muktadha wa maana. Watumiaji mara nyingi hutoa nenosiri kutokana na taarifa binafsi (kama vile jina, siku ya kuzaliwa, shughuli za kupendeza), ambazo leo hii nyingi zinapatikana hadharani kwenye majukwaa ya mitandao ya kijamii.

This paper introducesSODA ADVANCE, a data reconstruction tool that leverages publicly available social network data to assess password strength by extending a module. Furthermore, this paper exploresLarge Language Models's dual-edged role: as a potential asset for generating strong, personalized passwords and assessing security, and as a significant threat if misused for password cracking.

This study revolves around three key questions: Can Large Language Models generate complex yet memorable passwords based on public data? Can they effectively assess password strength while considering personal information? How does data propagation across multiple networks affect these capabilities?

2. Mfumo wa SODA ADVANCE

SODA ADVANCE is an evolved version of the SODA tool, specifically designed to assess password vulnerability by reconstructing a user's digital footprint from public sources.

2.1. Usanifu Mkuu na Moduli

Muundo wa mfumo huu (kama inavyoonyeshwa kwenye Mchoro 1 katika PDF) unahusisha moduli nyingi zilizounganishwa:

Uchanganyaji wa Data:Wavuti-vuta na zana za kukamata hukusanya data ya umma inayopatikana ya mtumiaji (taarifa za wasifu, machapisho, picha) kutoka kwa mitandao mingi ya kijamii.
Ujenzi Upya na Uunganishaji wa Data:Taarifa kutoka kwa vyanzo tofauti huunganishwa ili kujenga picha kamili ya mtumiaji. Teknolojia kama vile utambuzi wa uso inaweza kuunganisha picha za wasifu na utambulisho mwingine.
Moduli ya Nguvu ya Nenosiri:Moduli ya Uchambuzi ya Msingi inapokea nenosiri linaloingizwa na taswira ya mtumiaji iliyojengwa upya, ikatumia viashiria mbalimbali vya kipimo kutathmini nguvu.

Maelezo ya Chati (Muhtasari wa Mchoro 1):Mchoro huu unaonyesha mchakato unaoanzia kwa ukusanyaji wa data ya mtandao wa kijamii (kivinjari/kikokotoo cha mtandao), unaoelekeza kwenye moduli ya kuunganisha (utambuzi wa uso, kuunganisha data). Taswira iliyojengwa upya (yenye jina, jina la ukoo, jiji, n.k.) na nenosiri linaloingizwa huingizwa kwenye moduli ya muunganisho, ambayo inakokotoa viashiria vya kipimo (CUPP, LEET, COVERAGE, FORCE, CPS) na kutoa alama ya nguvu, inayoonyeshwa kwa uwakilishi wa kuona wa mizani inayoelekea kwenye "Ndiyo" au "Hapana".

2.2. Vipimo vya Nguvu ya Nenosiri

SODA ADVANCE inatumia na kupanua viashiria kadhaa vilivyothibitishwa:

CUPP (Common User Password Profiler):Inachunguza ikiwa nenosiri linapatikana kwenye kamusi za kawaida au muundo unaohusiana na mtumiaji (ikiwa ni ya kawaida alama ni 1, vinginevyo ni ya chini).
Leet Conversion:Evaluate resistance to simple character substitutions (e.g., a→@, e→3). A lower score indicates a higher degree of Leet conversion, suggesting an attempt to obfuscate a weak base word.
COVERAGE:Measures the proportion of user-reconstructed personal data (tokens) contained within the password. High coverage is undesirable.
FORCE (Password Strength):A composite metric that estimates the time to crack based on length, character set, and entropy.

This paper introduces a novelCumulative Password StrengthKipimo cha kukokotoa, ambacho hukusanya alama za njia zilizotajwa kuwa kipimo kimoja, kamili cha nguvu.

3. Mifano ya Lugha Kubwa: Jukumu Mbili katika Usalama wa Nenosiri

Utafiti huu unadhani kuwa mifano ya lugha kubwa kama GPT-4 inawakilisha mabadiliko ya mfano, ikitumika kama zana yenye nguvu ya ulinzi na pia kama silaha ya mashambulio.

3.1. Mifano ya Lugha Kubwa kwa Ajili ya Uundaji wa Nenosiri

Wakati data ya wasifu wa umma ya mtumiaji inaingizwa, mifano ya lugha kubwa inaweza kutoa nenosiri lenye sifa zifuatazo:

Nguvu kubwa:Inajumuisha entropy kubwa, urefu, na utofauti wa herufi.
Binafsi na ya kukumbukika:Inaweza kuunda nenosiri kulingana na masilahi ya mtumiaji (kwa mfano, kwa George ambaye anapenda machungwa na amesoma ujuzi wa mfumo, kuzalisha "OrangeSystem23"), na kufanya iwe rahisi kukumbuka kuliko mfuatano wa herufi nasibu.
Ufahamu wa muktadha:Ikiwa itaagizwa, zinaweza kuepuka mitego ya wazi ya data ya kibinafsi.

Uwezo huu unajibu kwa uhakika swali la kwanza la utafiti, lakini pia unaonyesha tishio: Washambuliaji wanaweza kutumia mbinu ile ile kuzalisha nadhani za nenosiri zenye uwezekano mkubwa.

3.2. Large Language Models for Password Evaluation

Mbali na kuzalisha, pia inaweza kusukumwa kwa mfano wa lugha kubwa kulingana na wasifu wa mtumiajiTathminiKutoa nguvu ya nywila zilizopewa. Zinaweza kufanya mantiki ya kisemantiki, kutambua uhusiano usio wazi (kwa mfano, "Orange123" inaweza kuwa dhaifu kwa mtumiaji ambaye kikosi chake cha mpira wa kikapu anachopenda ni Orlando Magic na siku ya kuzaliwa yake ni 3 Desemba). Tathmini hii ya muktadha inazidi mihakiki ya kawaida inayotegemea kanuni, na inajibu kwa usahihi swali la pili la utafiti.

4. Experimental Methodology and Results

4.1. Experimental Setup

Utafiti huu ulihusishaWatumiaji halisi 100. Watafiti walirekebisha wasifu wao wa umma kutoka kwa mitandao ya kijamii. Mchakato mkuu mbili ulijaribiwa:

Nywila zilizotokana na Mfano wa Lugha Kubwa:Toa maelezo ya mtumiaji kwa mfano wa lugha kubwa, na kuonyesha kuzalisha nenosiri "lililo imara lakini lenye kukumbukwa kwa urahisi".
Nenosiri lililokadiriwa na mfano wa lugha kubwa:Toa maelezo ya mtumiaji na seti ya nenosiri zinazowezekana (zikiwemo nenosiri dhaifu zinazotokana na maelezo) kwa mfano wa lugha kubwa, na uache upange au upime nguvu ya nenosiri.

Matokeo haya yalilinganishwa na matokeo ya moduli ya SODA ADVANCE inayotumia viwango vya kipimo.

4.2. Key Findings

Kiwango cha mafanikio ya uzalishaji wa mfano wa lugha kubwa

高

Mfano wa lugha kubwa ulizalisha kwa uthabiti nenosiri zilizo na nguvu kubwa (entropy kubwa) na zilizobinafsishwa kulingana na muktadha wa mtumiaji.

Tathmini ya Usahihi

Bora Zaidi Inapounganishwa na Muktadha

Wakati data ya wasifu wa mtumiaji inatolewa, miundo ya lugha kubwa (LLM) inafanya vizuri zaidi kuliko viashiria vya kawaida vya kipimo katika kutambua nywila dhaifu kimaana.

Athari ya Mitandao Mbalimbali

Muhimu

Utajiri na urudufu wa data katika majukwaa mbalimbali (Facebook, LinkedIn, Instagram) uliboresha kwa kiasi kikubwa usahihi wa ujenzi upya wa SODA ADVANCE na ufanisi wa uzalishaji/tathmini kulingana na miundo ya lugha kubwa (LLM).

Uchunguzi unaonyesha kuwa upatikanaji wa habari za kibinafsi kwa umma unafanya kazi kamakizidisha nguvukwa zana za ulinzi na washambuliaji wanaoweza kutumia mbinu zinazotumia akili bandia.

5. Uchambuzi wa Kiufundi na Mfumo

5.1. Uundaji wa Hisabati

KipyaCumulative Password StrengthKipimo kimeundwa kama mchanganyiko wenye uzani wa alama zilizosanifishwa kutoka kwa vipimo mbalimbali. Ingawa dondoo halina maelezo ya fomula halisi, inaweza kudaiwa kuwa:

$CPS = 1 - \frac{1}{N} \sum_{i=1}^{N} w_i \cdot S_i$

Ambapo:

$N$ ni idadi ya viashiria vya msingi vya kipimo (kwa mfano, CUPP, LEET, COVERAGE, FORCE).
$S_i$ ni alama ya kawaida ya kipimo $i$ (kwa kawaida 1 inawakilisha hatari kubwa/udhaifu).
$w_i$ ni uzito uliogawiwa kwa kipimo $i$, na $\sum w_i = 1$.

Alama ya CPS inayokaribia 1 inaashiria nenosiri lenye nguvu zaidi. Kipimo cha LEET kinaweza kuundwa kwa mfano. Ikiwa $L$ ni seti ya mabadiliko ya Leet (kwa mfano, {'a': ['@','4'], 'e': ['3']...}), na $P$ ni nenosiri, basi kiwango cha mabadiliko ya Leet $\ell$ kinaweza kuwa:

$\ell(P) = \frac{\text{Idadi ya herufi katika nenosiri } P \text{ zilizobadilishwa kwa Leet}}{\text{Urefu wa nenosiri } P}$

Thamani ya $\ell(P)$ ya juu inaonyesha kuwa nenosiri linaweza kuwa mchanganyiko rahisi wa neno la kamusi.

5.2. Mfano wa Mfumo wa Uchambuzi

Uchunguzi wa Kesi: Tathmini ya "GeorgeCali1023"

Ingizo:

Nenosiri:"GeorgeCali1023"
Picha Iliyojengwa Upya: {Name: "George", Surname: "Smith", Education: "University of California", Date of Birth: "1994-01-23", City: "Cagliari"}

Framework Application:

CUPP:Check for "George", "Smith", "California", "Cal". "Cali" is a direct match for the common abbreviation of "California".Score: High Risk (e.g., 0.8)。
LEET:No character substitution (a→@, i→1, etc.).Score: Low Conversion Level (e.g., 0.1)。
COVERAGE:令牌“George”和“Cali”（来自 California）直接来自画像。“1023”可能衍生自出生月/日（1月23日 -> 1/23）。高覆盖率。Score: High risk (e.g., 0.9)。
FORCE:Length is 13, with mixed uppercase/lowercase letters and numbers. From a purely grammatical perspective, the entropy is quite high.Score: Medium strength (e.g., 0.4 risk)。
Large Language Model Semantic Evaluation:Kichocheo: "Kwa mtumiaji anayeitwa George Smith, aliyesomea Chuo Kikuu cha California, na alizaliwa tarehe 23 Januari 1994, nguvu ya nenosiri 'GeorgeCali1023' ikoje?" Mfano wa Lugha Kubwa ulitoa: "Dhaifu. Inatumia moja kwa moja jina la mtumiaji, kifupi cha chuo chake, na uwezekano wa mwezi na siku ya kuzaliwa. Ni rahisi kukisia kutoka kwa data ya umma."

Hitimisho:Ingawa entropy ya jadi (FORCE) inaonyesha nguvu ya wastani, vipimo vya muktadha (CUPP, COVERAGE) na tathmini ya Mfano wa Lugha Kubwa zote zinaibainisha kamaDhaifu sana, kwa sababu ina uhusiano mkubwa wa kisemantiki na data ya kibinafsi ya umma. Hii inaonyesha hoja kuu ya makala hii.

6. Mtazamo wa Mchambuzi Mkosoaji

Ufahamu Muhimu:Makala hii imesisitiza kwa mafanikio ukweli wa kutisha na usioweza kuepukika: enzi ya kutathmini nywila katika utupu wa muktadha imekwisha. Nywila yako "ngumu" ni ngumu tu kama kiungo dhaifu zaidi katika nyayo zako za kidijitali zilizowazi. SODA ADVANCE ilifanya tishio hili kuwa rasmi, lakini mabadiliko halisi ya mchezo yanathibitisha kuwa miundo ya lugha makubwa haiautomatiki tu mchakato wa kuvunja—huelewaKuelewaMchakato huu. Hii inahamisha uso wa shambulio kutoka kwenye hesabu ya nguvu hadi kwenye mantiki ya kisemantiki, ambayo ni dhana bora na hatari zaidi.

Mfuatano wa kimantiki:Hoja inashawishi: 1) Data ya kibinafsi iko wazi (ukweli), 2) Nywila hutokana na data ya kibinafsi (ukweli), 3) Kwa hivyo, data ya wazi inaweza kuvunjwa nywila (kuthibitishwa na zana kama SODA). 4) Miundo ya lugha makubwa ni bora sana katika usindikaji na uzalishaji wa lugha, ikijumuisha data ya kibinafsi na mifumo ya nywila. 5) Kwa hivyo, miundo ya lugha makubwa ni teknolojia ya matumizi mawili ya kikweli katika nyanja hii. Utafiti huu uthibitisha wazi mfuatano huu kwa data ya kihalisi.

Nguvu na udhaifu:

Nguvu:Uundaji wa tishio kwa makusudi. Makala hii sio tu kurekoda udhaifu; inaunda mfano wa zana za shambulio za kizazi kijacho (zinazoendeshwa na akili bandia, zinazotambua muktadha) kabla hazijawa jumla. Hii ni muhimu sana kwa ulinzi.
Nguvu:Uthibitishaji wa vitendo. Kutumia watumiaji halisi 100 kulifanya utafiti ukue kwenye ukweli, sio nadharia.
Upungufu:Kutokuwa wazi kwa mifano ya lugha kubwa. Makala hii inachukulia mifano ya lugha kubwa kama kisanduku cheusi.Kwa niniMfano wa lugha kubwa unadhani nywili fulani ni dhaifu? Hakuna uwezo wa kufafanua, ni vigumu kuiamini kabisa au kuiunganisha katika mifumo ya otomatiki. Hii inatofautiana na viashiria vinavyoweza kufafanuliwa (ingawa rahisi zaidi) kama vile CUPP au COVERAGE.
Upungufu mkubwa:Maadili na upofu wa kupingana. Makala hii inataja kwa ufupi vitisho, lakini haikabiliana na mashindano makubwa ya silaha yanayodokezwa. Ikiwa watafiti wanaweza kufanya hivyo, watendaji waovu pia wanaweza – na kwa uwezekano mkubwa zaidi. Hakuna hatua za kupunguza au masuala ya udhibiti yaliyopendekezwa kwa vekta hii mpya ya tishio.

Ufahamu unaoweza kutekelezwa:

Kwa timu za usalama:Pangilia kipaumbele chini mara moja kwa vichunguzi vya nguvu za nywila za jadi. Wekeza au tengeneza zana zinazoweza kujenga upya kwa mtindo wa SODA data ya wazi ya watendaji wakuu na wafanyikazi muhimu, ili kukagua hati zao za utambulisho.
Kwa wasimamizi wa nywila na watoa huduma wa SaaS:Unganisha ukaguzi wa nguvu kulingana na muktadha. Wasimamizi wa nywila wanapaswa kuonya: "Nywila hii ina nguvu sana, lakini tumegundua jina la paka wako 'Whiskers' na mwaka wa kuzaliwa '1988' kwenye Instagram yako ya wazi. Tafadhali fikiria kubadilisha."
Kwa watafiti:Hatua inayofuata ya haraka niUimarishaji wa mifano ya lugha kubwa ya kupingana. Je, tunaweza kufundisha au kuelekeza mifano ya lugha kubwa kuzalisha inayowezaUpinzaniNenosiri la uwezo wake wa kuchambua? Hii inafanana na mtandao wa kuzalisha unaotumika katika uzalishaji wa picha, ambapo kizazi na kichambuzi hushindana. "GAN ya nenosiri" inaweza kuwa njia ya kuzuia ya kuvunja mipaka.
Kwa wote:Hii ndio msumari wa mwisho wa jeneza kwa nenosiri kama sababu pekee ya uthibitishaji. Hitimisho lisilotajwa wazi la makala hii linatoa wito wa dhati kwa kuhimiza kasi ya kupitishwa kwa uthibitishaji wa sababu nyingi unaozuia udukuzi (WebAuthn/FIDO2) na teknolojia zisizo na nenosiri.

Utafiti wa Atzori et al. ni kengele ya tahadhari muhimu sana. Hii sio tu juu ya vivinjari bora vya nenosiri; ni juu ya kutambua kwamba akili bandia imebadilisha kimsingi mazingira ya usalama wa mtandao, na kufanya tabia na zana zetu za zamani kuwa za kisasa hatari.

7. Matumizi ya Baadaye na Mwelekeo

Umuhimu wa utafiti huu unazidi sana masilahi ya kitaaluma:

Ukaguzi wa usalama wa biashara unaotangulia:Makampuni yanaweza kusanikisha zana kama SODA ADVANCE ndani, kukagua mazoea ya nywila za wafanyikazi kulingana na alama zao za kidijitali za kitaaluma (LinkedIn, wasifu wa kampuni), ili kupunguza tishio la ndani na hatari ya udukuzi wa aina ya mkuki.
Ujumuishaji na Usimamizi wa Utambulisho na Ufikiaji:Mifumo ya baadaye ya IAM inaweza kujumuisha moduli endelevu na isiyoamua inayofuatilia mabadiliko katika data ya kijamii ya wafanyikazi iliyotangazwa, na kusababisha upya wa nywila uliolazimishwa unapogundua mchanganyiko wa hatari kubwa.
Uundaji wa Nywila Unaotokana na Akili Bandia na Kulinda Faragha:Mwelekeo unaofuata wa maendeleo ni mfano mkubwa wa lugha unaoendeshwa kwenye kifaa (mfano, mfano wa kifaa cha Apple), ambao unaweza kuzalisha nywila ngumu不bila kutuma data ya kibinafsi kwenye wingu, na hivyo kuunganisha nguvu ya akili bandia na faragha ya mtumiaji. Utafiti wa kujifunza kwa shirikisho wa mifano mikuu ya lugha unaochunguzwa na taasisi kama vile Google AI unaweza kutumika moja kwa moja hapa.
Uwekaji wa Viwango vya Vipimo vya Nywila Kulingana na Muktadha:Vipimo vya CPS au toleo lake linalofuata vinaweza kukua na kuwa kiwango kipya katika mazingira ya usalama wa juu (kuzidi miongozo ya NIST), ikilazimisha ukaguzi dhidi ya habari inayopatikana kwa umma.
Elimu ya Ujuzi wa Kidijitali na Faragha:Utafiti huu unatoa mifano maalum na ya kuonya kwa elimu ya umma. Kuonyesha jinsi machapisho machache ya kijamii yanavyoweza kuvunja nywila, ni kizuizi chenye nguvu dhidi ya kushirikisha kupita kiasi.
Zana za Uchunguzi na Upelelezi:Idara za sheria na wakenguzi wa maadili wanaweza kutumia mbinu hizi katika uchunguzi wa ushahidi wa kisayansi, kufikia vifaa au akaunti salama ambavyo haziwezi kuvunjwa kwa njia za kitamaduni, jambo linalochochea masuala muhimu ya kimaadili na kisheria yanayohitaji maendeleo sambamba.

Muunganiko wa zana za ujasusi wa chanzo wazi, teknolojia za ujenzi upya wa data na akili bandia ya kizazi unaashiria upeo mpya katika nyanja ya usalama. Siku zijazi haziko katika kuunda nywila ngumu zaidi na zaidi, bali katika kuendeleza mifumo yenye akili inayoelewa na kuzuia uhusiano wa kisemantiki ambao hatokufichamana nao mtandaoni.

8. Marejeo

Atzori, M., Calò, E., Caruccio, L., Cirillo, S., Polese, G., & Solimando, G. (2025). Password Strength Analysis Through Social Network Data Exposure: A Combined Approach Relying on Data Reconstruction and Generative Models. SEBD 2025 Proceedings.
Author. (Year). SODA: A Data Reconstruction Tool. Related conference or journal. (Reference [2] in the PDF).
Author. (Year). On data reconstruction and semantic context. Related publication. (Reference [3] in the PDF).
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems (NeurIPS). (Kuhusiana na vyanzo vya nje vya GANs).
Mwandishi. (Mwaka). Kipimo cha nenosiri cha FORCE. Related publication. (Marejeo [5] katika PDF).
Mwandishi. (Mwaka). Uchambuzi wa mabadiliko ya lugha ya LEET. Related publication. (Marejeo [6] katika PDF).
Mwandishi. (Mwaka). Kipimo cha COVERAGE cha nenosiri. Related publication. (Marejeo [7] katika PDF).
Taasisi ya Kitaifa ya Viwango na Teknolojia (NIST). (2017). Mwongozo wa Utambulisho Dijitali (SP 800-63B). https://pages.nist.gov/800-63-3/sp800-63b.html (Kuhusiana na mamlaka ya nje ya uthibitishaji).
Mwandishi. (Mwaka). CUPP - Profaila ya Nenosiri ya Mtumiaji wa Kawaida. Related publication. (Reference [9] in the PDF).
Google AI. (2023). Federated Learning and Analytics. https://ai.google/research/teams/federated-learning (External source on privacy-preserving AI).