SOPG: Uundaji wa Nywila Zilizoagizwa Kulingana na Utafutaji kwa Mitandao ya Neva ya Kujirejesha

1. Utangulizi

Nywila bado ndio njia inayotumika zaidi kwa uthibitishaji wa mtumiaji, ikilinda usawa kati ya urahisi na ufanisi. Hata hivyo, usalama wake unakabiliwa kila wakati na mashambulizi ya kukisia nywila, ambayo ni sehemu muhimu katika uchunguzi wa usalama wa kushambulia na tathmini ya nguvu ya ulinzi. Mbinu za jadi, kuanzia orodha kulingana na kanuni hadi mifano ya takwimu kama vile minyororo ya Markov na PCFG, zina mapungufu ya asili katika utofauti na ufanisi. Kuja kwa ujifunzaji wa kina, hasa mitandao ya neva ya kujirejesha, kuliahidi mabadiliko makubwa. Hata hivyo, ukosefu mkubwa uliendelea: mbinu ya uundaji yenyewe. Mbinu za kawaida za kuchukua sampuli huanzisha nasibu, na kutoa nywila zinazorudiwa na matokeo yasiyo na mpangilio, na hivyo kudhoofisha sana ufanisi wa shambulio. Karatasi hii inatangaza SOPG (Uundaji wa Nywila Zilizoagizwa Kulingana na Utafutaji), mbinu mpya ambayo inalazimisha mifano ya kujirejesha kuunda nywila kwa mpangilio wa takriban kushuka kwa uwezekano, na hivyo kubadilisha kabisa ufanisi wa kukisia nywila kulingana na mtandao wa neva.

2. Usuli & Kazi Inayohusiana

2.1 Mabadiliko ya Kukisia Nywila

Uwanja huu umebadilika kupitia hatua tofauti: Mbinu za Kulingana na Kanuni za Heuristic zilitegemea kamusi za mikono na kanuni za mabadiliko (mfano, kanuni za John the Ripper), ambazo zilitegemea uzoefu na hazikuwa na msingi wa kinadharia. Kuenea kwa uvujaji wa nywila halisi baada ya 2009 kulifanya iwezekane Mbinu za Takwimu. Modeli ya Markov, kama ilivyotumika katika OMEN, inatabiri herufi inayofuata kulingana na historia ya mpangilio uliowekwa, wakati Sarufi ya Kukisia ya Uwezekano Isiyo na Mazingira (PCFG) hugawanya nywila kuwa muundo (herufi, nambari, alama) na kujifunza uwezekano wao. Ingawa ni ya kimfumo, mifano hii mara nyingi huzidi kufaa na hupambana na ujumla.

2.2 Mbinu za Mitandao ya Neva

Mifano ya ujifunzaji wa kina, yenye uwezo wa kujifunza usambazaji tata wa vipimo vya juu, ilionekana kama warithi wenye nguvu. PassGAN ilitumia Mitandao ya Kuzalisha ya Kupingana (GANs) kuunda nywila, ingawa GANs zinajulikana kwa kutokuwa na utulivu kwa data tofauti. VAEPass ilitumia Vigezo vya Otokodishi. Mbinu ya hivi karibuni na inayohusika zaidi ni PassGPT, ambayo inatumia muundo wa GPT (Transformer Iliyofunzwa Kwanza ya Kuzalisha), modeli ya kujirejesha ambayo inatabiri token inayofuata ikizingatia zote zilizopita. Hata hivyo, mifano hii yote kwa kawaida hutegemea sampuli za kawaida (mfano, sampuli za nasibu, top-k, sampuli za kiini) wakati wa uundaji, ambayo haihakikishi mpangilio au kipekee.

3. Mbinu ya SOPG

3.1 Dhana Kuu

SOPG inashughulikia ufanisi wa msingi wa sampuli za nasibu. Badala ya kuunda nywila kwa nasibu, inaweka uundaji wa nywila kama tatizo la utafutaji. Lengo ni kupitia nafasi kubwa ya nywila zinazowezekana (zilizofafanuliwa na msamiati wa modeli na urefu wa juu) kwa mpangilio unaokaribia kushuka kwa uwezekano, kama ilivyopangwa na mtandao wa neva wa kujirejesha wa msingi.

3.2 Algorithm ya Utafutaji

Ingawa muhtasari wa PDF haujaelezea algorithm maalum, SOPG inaweza kutumia au kurekebisha mkakati wa utafutaji bora wa kwanza au utafutaji wa boriti unaoongozwa na makadirio ya uwezekano ya modeli. Nywila ya mgombea inawakilishwa kama mlolongo wa token. Utafutaji hudumisha foleni ya kipaumbele (mfano, chungu) ya mifuatano ya sehemu au kamili, iliyopangwa kulingana na uwezekano wao wa jumla au alama ya heuristics inayotokana nayo. Katika kila hatua, mgombea anayetumainiwa zaidi hupanuliwa kwa kuongeza token zinazofuata zinazowezekana (kutoka kwa msamiati), na wagombea wapya hupimwa na kuingizwa tena kwenye foleni. Hii inahakikisha mtiririko wa matokeo umepangwa takriban kutoka kwa uwezekano mkubwa hadi mdogo.

3.3 Modeli ya SOPGesGPT

Waandishi wanaonyesha mbinu yao kwa kujenga SOPGesGPT, modeli ya kukisia nywila kulingana na muundo wa GPT. Modeli hiyo imefunzwa kwenye seti za data za nywila zilizovuja ili kujifunza usambazaji wa msingi. Muhimu, wakati wa hatua ya uundaji, inatumia algorithm ya SOPG badala ya sampuli za kawaida, na kuifanya iwe chombo cha kuonyesha ubora wa SOPG.

4. Maelezo ya Kiufundi & Muundo wa Hisabati

Ikizingatiwa modeli ya kujirejesha (kama GPT), uwezekano wa mlolongo wa nywila $S = (s_1, s_2, ..., s_T)$ umegawanywa kama: $$P(S) = \prod_{t=1}^{T} P(s_t | s_1, ..., s_{t-1})$$ ambapo $s_t$ ni token katika nafasi $t$, na $P(s_t | s_1, ..., s_{t-1})$ ni usambazaji wa uwezekano wa matokeo ya modeli.

Sampuli za kawaida za nasibu huchukua $s_t$ kutoka kwa usambazaji huu, na kusababisha matembezi ya nasibu. SOPG, kinyume chake, inalenga kupata mlolongo $S^*$ unaoongeza $P(S)$ au kuorodhesha kwa utaratibu mifuatano yenye uwezekano wa juu. Hii inaweza kutazamwa kama: $$S^* = \arg\max_{S \in \mathcal{V}^*} P(S)$$ ambapo $\mathcal{V}^*$ ni seti ya mifuatano yote inayowezekana hadi urefu wa juu. Utafutaji kamili hauwezekani. Kwa hivyo, SOPG inatumia algorithm ya utafutaji iliyojulikana (mfano, $A^*$ na gharama ya logi-uwezekano) ili takriban orodha hii iliyopangwa kwa ufanisi. Utafutaji hutumia logi hasi ya uwezekano kama gharama: $\text{cost}(S) = -\sum_{t=1}^{T} \log P(s_t | s_1, ..., s_{t-1})$. Algorithm inatafuta kutoa mifuatano kwa mpangilio wa gharama inayoongezeka.

5. Matokeo ya Majaribio & Uchambuzi

Kiwango cha Ufunikaji (SOPGesGPT)

35.06%

Ufunikaji wa juu uliopatikana katika jaribio la tovuti moja.

Uboreshaji juu ya PassGPT

81%

Kiwango cha juu cha ufunikaji kuliko modeli ya hivi karibuni.

Uboreshaji juu ya PassGAN

421%

Faida kubwa juu ya mbinu ya msingi wa GAN.

5.1 Ulinganisho na Uchaguzi wa Nasibu

Karatasi hii kwanza inathibitisha madai ya ufanisi wa msingi wa SOPG dhidi ya sampuli za kawaida za nasibu kwenye modeli sawa ya msingi. Matokeo Muhimu:

Hakuna Marudio: SOPG inazalisha orodha ya kipekee, iliyopangwa, na kuondoa upotevu wa rasilimali za kompyuta kwenye makisia yanayorudiwa.
Uchambuzi Mdogo kwa Ufunikaji Sawa: Ili kufikia kiwango sawa cha ufunikaji (asilimia ya nywila zilizovunjika kutoka kwa seti ya majaribio), SOPG inahitaji uchambuzi mdogo sana wa modeli (kipitio mbele) ikilinganishwa na sampuli za nasibu.
Makisia Machache Kabisa: Kwa hivyo, SOPG huvunja idadi sawa ya nywila kwa kuzalisha orodha ndogo sana ya makisia, na hii inabadilishwa moja kwa moja kuwa nyakati za haraka za shambulio.

Jaribio hili linathibitisha kabisa kuwa mbinu ya uundaji ndio kikwazo kikuu, na SOPG inaondoa kikwazo hicho kwa ufanisi.

5.2 Ulinganisho na Mbinu Bora za Sasa

SOPGesGPT ililinganishwa katika jaribio la tovuti moja dhidi ya viwango vikuu: OMEN (Markov), FLA, PassGAN (GAN), VAEPass (VAE), na PassGPT ya hivi karibuni (GPT na sampuli za nasibu).

Kiwango cha Ufunikaji: SOPGesGPT ilipata kiwango cha ufunikaji cha 35.06%. Uboreshaji ni wa kushangaza: 254% juu ya OMEN, 298% juu ya FLA, 421% juu ya PassGAN, 380% juu ya VAEPass, na 81% juu ya PassGPT.
Kiwango cha Ufanisi: Karatasi hii pia inataja kuongoza katika "kiwango cha ufanisi," labda inarejelea idadi ya nywila halisi za kipekee zinazozalishwa kwa kila kitengo cha muda au hesabu, na hivyo kusisitiza zaidi ufanisi wa SOPG.

Maelezo ya Chati: Chati ya mihimili ingeonyesha "Kiwango cha Ufunikaji (%)" kwenye mhimili wa Y na majina ya modeli kwenye mhimili wa X. Mihimili ya SOPGesGPT ingekuwa mirefu zaidi kuliko yote, na PassGPT ikiwa nafasi ya pili lakini chini sana. Mstari wa juu unaweza kuonyesha idadi ya makisia inayohitajika kufikia ufunikaji wa 20%, ambapo mstari wa SOPGesGPT ungepanda kwa kasi mapema, na kuonyesha uwezo wake wa "kupiga kwa nguvu na kwa haraka".

6. Mfumo wa Uchambuzi & Mfano wa Kesi

Mfumo: Robo ya Ufanisi wa Kukisia Nywila
Tunaweza kuchambua mifano kwenye mihimili miwili: Uwezo wa Modeli (uwezo wa kujifunza usambazaji tata, mfano, GPT > Markov) na Ufanisi wa Uundaji (upangilio bora wa matokeo).

Robo I (Uwezo wa Juu, Ufanisi wa Chini): PassGPT, VAEPass. Mifano yenye nguvu iliyozuiwa na sampuli za nasibu.
Robo II (Uwezo wa Juu, Ufanisi wa Juu): SOPGesGPT. Hali ya lengo iliyopatikana na kazi hii.
Robo III (Uwezo wa Chini, Ufanisi wa Chini): Mashambulio ya msingi ya kanuni.
Robo IV (Uwezo wa Chini, Ufanisi wa Juu): OMEN, FLA. Uundaji wao kwa asili umepangwa (kwa uwezekano) lakini uwezo wao wa modeli unaweka kikomo utendaji wa mwisho.

Mfano wa Kesi Usio na Msimbo: Fikiria wawindaji wa hazina (washambuliaji) wana ramani ya ubora wa juu (modeli ya GPT iliyofunzwa). Mwindaji mmoja (Sampuli za Nasibu) anatembea kwa nasibu, mara nyingi akirudi kwenye maeneo, na kupata hazina polepole. Mwindaji mwingine (SOPG) ana kigunduzi cha chuma kinachoonyesha eneo la karibu lenye matumaini zaidi kwanza, akifuata njia ya kimfumo, isiyorudiwa. Kwa idadi sawa ya hatua, mwindaji wa SOPG hupata hazina nyingi zaidi. SOPG ndio kigunduzi hicho cha chuma kwa ramani ya mtandao wa neva.

7. Matumizi ya Mbeleni & Mwelekeo wa Baadaye

Matumizi ya Haraka:

Tathmini ya Nguvu ya Nywila ya Kukabiliana: Makampuni ya usalama yanaweza kutumia zana zenye nguvu ya SOPG kukagua sera za nywila kwa kuzalisha makisia ya shambulio yenye uwezekano mkubwa zaidi kwa kasi ya ukubwa mkubwa, na kutoa tathmini halisi ya hatari.
Uchunguzi wa Kielektroniki & Urejeshaji wa Kisheria: Kuharakisha urejeshaji wa nywila katika uchunguzi wa kisheria ambapo wakati ni muhimu.

Mwelekeo wa Utafiti wa Baadaye:

Mikakati ya Utafutaji Mseto: Kuchanganya SOPG na nasibu ndogo ili kuchunguza makisia ya "ubunifu" yenye uwezekano mdogo lakini yanayoweza kuleta matokeo mapema, na kusawazisha utumiaji na uchunguzi.
Utafutaji Ulioharakishwa na Vifaa: Kutekeleza algorithm ya utafutaji kwenye GPU/TPU ili kuwezesha tathmini sambamba ya wagombea, na kupunguza mzigo wa mchakato wa utafutaji yenyewe.
Zaidi ya Nywila: Kutumia mfano wa uundaji uliopangwa kwa kazi zingine za modeli ya kujirejesha ambapo matokeo yaliyopangwa, ya kipekee yana thamani, kama vile kuzalisha kesi za majaribio kwa programu, au kuunda tofauti za muundo kwa mpangilio wa uwezekano.
Hatua za Kuzuia: Utafiti wa kugundua na kuzuia mashambulio yenye ufanisi na yaliyopangwa kama haya, kwa uwezekano kwa kusoma "alama ya kidole" ya orodha ya makisia iliyozalishwa na SOPG dhidi ya ile ya nasibu.

8. Marejeo

M. Jin, J. Ye, R. Shen, H. Lu, "Search-based Ordered Password Generation of Autoregressive Neural Networks," Manuscript Submitted for Publication.
A. Narayanan and V. Shmatikov, "Fast dictionary attacks on passwords using time-space tradeoff," in Proceedings of the 12th ACM conference on Computer and communications security, 2005.
M. Weir, S. Aggarwal, B. de Medeiros, and B. Glodek, "Password cracking using probabilistic context-free grammars," in 2009 30th IEEE Symposium on Security and Privacy, 2009.
J. Ma, W. Yang, M. Luo, and N. Li, "A study of probabilistic password models," in 2014 IEEE Symposium on Security and Privacy, 2014.
B. Hitaj, P. Gasti, G. Ateniese, and F. Perez-Cruz, "PassGAN: A Deep Learning Approach for Password Guessing," in Applied Cryptography and Network Security Workshops, 2019.
OpenAI, "Improving Language Understanding by Generative Pre-Training," 2018. [Online]. Available: https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf
M. Pasquini, D. Bernardo, and G. Ateniese, "PassGPT: Password Modeling and (Guessing) with Large Language Models," in arXiv preprint arXiv:2306.01745, 2023.

9. Uchambuzi wa Asili & Uchambuzi wa Mtaalamu

Uelewa wa Msingi

Uvumbuzi wa karatasi hii sio muundo mpya wa neva; ni shambulio la upasuaji kwenye kikwazo cha uundaji. Kwa miaka mingi, jamii ya kukisia nywila, ikifuatilia mienendo ya AI ya kuzalisha, ilijikita kwa uwezo wa modeli—transformer kubwa, GANs bora—wakati inachukulia mchakato wa sampuli kama tatizo lililosuluhishwa, la pili. Jin et al. wanatambua hili kwa usahihi kama hitilafu kubwa. Sampuli za nasibu kutoka kwa modeli yenye nguvu ni kama kutumia bunduki ya usahihi kupiga risasi kwa nasibu; SOPG huongeza darubini na mkakati. Mabadiliko haya ya kuzingatia kutoka muundo hadi utafutaji ndio mchango mkubwa wa dhana wa karatasi hii. Inaonyesha kuwa katika matumizi ya usalama ambapo mpangilio wa matokeo unalingana moja kwa moja na kiwango cha mafanikio (kuvunja nywila rahisi kwanza), ufanisi wa utafutaji unaweza kuzidi faida ndogo katika usahihi wa modeli.

Mtiririko wa Mantiki

Hoja hii ni ya kulazimisha na iliyopangwa vizuri: (1) Kuanzisha umuhimu na kutofaa kwa kukisia kwa sasa kwa neva (nasibu, yenye marudio). (2) Kupendekeza SOPG kama suluhisho la msingi wa utafutaji ili kulazimisha uundaji wa kipekee uliopangwa kwa uwezekano. (3) Kuthibitisha kwa majaribio ufanisi wa SOPG juu ya sampuli za nasibu kwenye modeli sawa—utafiti safi wa kutoa. (4) Kuonyesha ubora wa mwisho hadi mwisho kwa kujenga SOPGesGPT na kuvunja viwango vilivyopo. Uboreshaji wa 81% juu ya PassGPT unaelezea sana; unatenganisha thamani ya SOPG kwa kulinganisha muundo sawa wa GPT na mipango miwili tofauti ya uundaji.

Nguvu & Kasoro

Nguvu: Wazo la msingi ni zuri na lenye athari kubwa. Muundo wa majaribio ni thabiti, na matokeo yaliyo wazi na ya kuhitimisha. Faida za utendaji sio za nyongeza; ni za kubadilisha, na zinaonyesha kuwa SOPG inaweza kuwa sehemu mpya ya kawaida. Kazi hii inaunganishwa kwa kina na algorithm za utafutaji kutoka kwa AI ya jadi, na kuzitumia kwa mazingira ya kisasa ya ujifunzaji wa kina—mchanganyiko wenye matunda.

Kasoro & Maswali Yasiyojibiwa: Sehemu ya PDF inakosa maelezo muhimu: algorithm maalum ya utafutaji (A*, boriti, bora ya kwanza?) na mzigo wake wa hesabu. Utafutaji sio bure; kudumisha foleni ya kipaumbele na kupima wagombea wengi kuna gharama. Karatasi inadai "uchambuzi mdogo," lakini je hii inajumuisha uchambuzi wa ndani wa utafutaji? Uchambuzi kamili wa gharama na faida unahitajika. Zaidi ya hayo, kipengele cha "takriban mpangilio wa kushuka" kina utata—takriban kiasi gani? Je, mpangilio unapungua kwa nywila ndefu sana au tata? Ulinganisho, ingawa wa kuvutia, ni "jaribio la tovuti moja". Ujumla katika seti tofauti za data (nywila za kampuni dhidi ya mitandao ya kijamii) unahitaji uthibitisho. Mwisho, kama ilivyo kwa maendeleo yote ya shambulio, ina hatari ya kuwa teknolojia ya matumizi mawili, ikitoa nguvu kwa watendaji waovu kama vile walinzi.

Uelewa Unaoweza Kutekelezwa

Kwa Wataalamu wa Usalama: Mara moja shinikiza kupima nywila za shirika lako dhidi ya mbinu kama za SOPG, sio tu mifano ya zamani ya Markov au GAN. Sasisha makadirio ya nguvu ya nywila ili kuzingatia kizazi hiki kipya cha mashambulio yenye ufanisi na yaliyopangwa.

Kwa Watafiti wa AI/ML: Hii ni wito wa kukagua upya mikakati ya uundaji katika mifano ya kujirejesha kwa kazi zilizolenga lengo. Usizingatie tu mikunjo ya hasara; chambua ufanisi wa njia ya uchambuzi. Chunguza mbinu mseto za nevisimbio ambapo modeli iliyojifunza inaongoza utafutaji wa jadi.

Kwa Wauzaji & Waandaaji Sera: Harakisha harakati za kuzidi nywila. SOPG inafanya mashambulio ya kamusi kuwa yenye ufanisi sana hata nywila zenye utata wa wastani ziko katika hatari kubwa. Wekeza na amuru MFA isiyoweza kudanganywa na udanganyifu (kama FIDO2/WebAuthn) kama njia kuu ya uthibitishaji. Kwa mifumo ya nywila ya zamani, teketeza kiwango cha kikomo cha kiwango na ugunduzi wa ukiukaji uliowekwa kugundua muundo wa shambulio lililopangwa na la kasi ya juu.

Kwa kumalizia, karatasi hii haileti maendeleo ya kukisia nywila tu; inatoa darasa la ustadi katika jinsi ya kuboresha hatua ya mwisho ya mfereji wa AI—mkakati wa uundaji—inaweza kutoa faida kubwa zaidi ya utendaji wa ulimwengu halisi kuliko kuongeza ukubwa wa modeli yenyewe kila wakati. Ni somo la ufanisi wa AI unaotumika ambalo lina athari zaidi ya usalama wa mtandao.