یک سرور ناآگاه شکستن رمز عبور: ترکیب جداول هلمن و پروتکل‌های بازیابی اطلاعات خصوصی

فهرست مطالب

1. مقدمه
2. پیش‌نیازها
- 2.1 جداول معکوس‌سازی هش
- 2.2 بازیابی اطلاعات خصوصی
3. مرور کلی راه‌حل
4. جزئیات فنی و ساختار الگوریتم
5. پروتکل‌های PIR و تحلیل پیچیدگی
6. نتایج آزمایشی
7. نتیجه‌گیری و کارهای آینده
8. تحلیل اصلی و نظرات کارشناسی
9. جزئیات فنی و فرمول‌بندی ریاضی
10. چارچوب تحلیل و مطالعه موردی
11. کاربردهای آینده و جهت‌گیری‌ها
12. مراجع

1. مقدمه

این مقاله به یک چالش حیاتی حریم خصوصی در عملیات امنیتی تهاجمی می‌پردازد: انجام شکستن رمز عبور از طریق یک سرور شخص ثالث بدون افشای هش‌های هدف. سناریو شامل یک تست نفوذگر با منابع محلی محدود (مانند یک تلفن هوشمند) است که نیاز به پرس‌وجو از جداول هش از پیش محاسبه‌شده بزرگ (مانند جداول رنگین‌کمان یا هلمن) که به صورت دوربار میزبانی می‌شوند، دارد. مشکل اصلی ساخت یک سرور ناآگاه شکستن رمز عبور است که در آن سرور نمی‌تواند بفهمد مشتری در حال تلاش برای شکستن کدام جفت‌های رمزعبور-هش است و در نتیجه محرمانگی عملیاتی حفظ می‌شود.

2. پیش‌نیازها

2.1 جداول معکوس‌سازی هش

سیستم‌های رمز عبور اغلب هش‌های رمزنگاری را ذخیره می‌کنند. مهاجمان از جداول از پیش محاسبه‌شده برای معکوس کردن این هش‌ها استفاده می‌کنند. روش‌های کلیدی عبارتند از:

جداول هلمن (۱۹۸۰): یک مبادله زمان-حافظه با استفاده از زنجیره‌هایی از هش‌ها و رمزهای عبور که فقط نقاط شروع و پایان زنجیره را ذخیره می‌کند.
نقاط متمایز ریوست (۱۹۸۲): یک بهینه‌سازی با استفاده از مقادیر هش ویژه «متمایز» به عنوان نقاط پایانی زنجیره برای کاهش جستجوها.
جداول رنگین‌کمان (اوشلین، ۲۰۰۳): در هر مرحله زنجیره از یک تابع کاهش متفاوت استفاده می‌کند، عموماً سریع‌تر است اما برای مدل پرس‌وجوی مبتنی بر PIR پیشنهادی کمتر مناسب است.

مقاله استدلال می‌کند که جداول هلمن (یا انواع آن با نقاط متمایز) برای این کاربرد خاص، سازگاری بیشتری با پروتکل‌های PIR نسبت به جداول رنگین‌کمان دارند.

2.2 بازیابی اطلاعات خصوصی

بازیابی اطلاعات خصوصی (PIR) به یک مشتری اجازه می‌دهد یک مورد را از یک پایگاه داده بازیابی کند بدون اینکه سرور بداند کدام مورد دسترسی پیدا کرده است. برای یک پایگاه داده واحد که یک رشته n-بیتی را نگه می‌دارد، یک طرح PIR شامل مراحل زیر است:

تولید پرس‌وجو (مشتری)
انتقال پرس‌وجو
پردازش پرس‌وجو (سرور)
انتقال پاسخ
رمزگشایی پاسخ (مشتری)

پیچیدگی با $O_C$ (پردازش مشتری)، $O_S$ (پردازش سرور) و $O_T$ (انتقال) اندازه‌گیری می‌شود. یک کران پایه اساسی این است که $O_S$ باید حداقل $O(n)$ باشد تا حریم خصوصی تضمین شود، به این معنی که سرور باید کاری متناسب با اندازه پایگاه داده انجام دهد.

3. مرور کلی راه‌حل

راه‌حل پیشنهادی به طور هوشمندانه‌ای جداول هلمن (یا جداول نقاط متمایز) را با یک پروتکل PIR پایگاه داده واحد ترکیب می‌کند. سرور جداول شکستن از پیش محاسبه‌شده را ذخیره می‌کند. هنگامی که یک مشتری می‌خواهد یک هش را بشکند، از یک پرس‌وجوی PIR برای بازیابی خصوصی اطلاعات لازم از مکان‌های خاص در جداول هلمن که با تطابق‌های زنجیره‌ای بالقوه مطابقت دارند، استفاده می‌کند، بدون اینکه شاخص‌های جستجو را فاش کند.

4. جزئیات فنی و ساختار الگوریتم

ساختار بر روی تطبیق جداول هلمن برای PIR متمرکز است. یک جدول هلمن توسط یک تابع هش رمزنگاری $H$ و یک تابع کاهش $R$ تعریف می‌شود. یک زنجیره با یک متن ساده $SP_i$ شروع می‌شود و به صورت تکراری محاسبه می‌کند: $X_0 = SP_i$، $X_{j+1} = H(R(X_j))$، و فقط $(SP_i, EP_i)$ را ذخیره می‌کند که در آن $EP_i$ مقدار نهایی پس از $t$ مرحله است. برای بررسی یک هش $h$، مشتری یک زنجیره به طول $t$ را از $h$ شروع می‌کند و در هر مرحله بررسی می‌کند که آیا مقدار میانی با یک نقطه پایانی ذخیره‌شده مطابقت دارد یا خیر. پروتکل PIR برای واکشی خصوصی این مقایسه‌های نقطه پایانی از جدول سرور استفاده می‌شود.

5. پروتکل‌های PIR و تحلیل پیچیدگی

مقاله سربار محاسباتی و ارتباطی را تحلیل می‌کند. با استفاده از یک پروتکل PIR محاسباتی استاندارد (مثلاً مبتنی بر فرض باقیمانده درجه دوم)، هزینه پردازش سمت سرور $O_S$ با اندازه جدول مقیاس می‌یابد. هزینه مشتری $O_C$ و ارتباطات $O_T$ به طور قابل توجهی کمتر اما غیرقابل چشم‌پوشی هستند. تحلیل نشان می‌دهد که در حالی که PIR در مقایسه با یک پرس‌وجوی متن ساده سربار ایجاد می‌کند، این قیمت ضروری برای حریم خصوصی قوی پرس‌وجو است. انتخاب جداول هلمن به جای جداول رنگین‌کمان در اینجا توجیه می‌شود زیرا جداول رنگین‌کمان نیاز به بررسی چندین ستون با توابع کاهش متفاوت دارند که منجر به پرس‌وجوهای PIR بیشتر و هزینه کلی بالاتر می‌شود.

6. نتایج آزمایشی

یک نمونه اولیه در پایتون پیاده‌سازی شد. آزمایش‌ها امکان‌پذیری رویکرد را نشان دادند. معیارهای کلیدی عبارت بودند از:

زمان پرس‌وجو: زمان سرتاسری برای یک تلاش شکست ناآگاهانه، با در نظر گرفتن محاسبات PIR و تأخیر ارتباطی.
بار سرور: بار محاسباتی روی سرور به ازای هر پرس‌وجو، که کران نظری $O(n)$ را تأیید می‌کند.
نرخ موفقیت: احتمال شکستن موفقیت‌آمیز یک هش با توجه به پوشش جدول، که با احتمالات موفقیت استاندارد جداول هلمن همسو است.

نتایج تأیید کردند که سیستم کار می‌کند اما مبادله عملکرد را برجسته کرد: حریم خصوصی به قیمت افزایش محاسبات سرور به ازای هر پرس‌وجو در مقایسه با یک سرویس غیرخصوصی تمام می‌شود.

7. نتیجه‌گیری و کارهای آینده

مقاله با موفقیت یک معماری نوآورانه برای یک سرور ناآگاه شکستن رمز عبور را نشان می‌دهد. جهت‌گیری‌های کار آینده شامل موارد زیر است:

کاوش پروتکل‌های PIR کارآمدتر برای کاهش $O_S$ و $O_T$.
بررسی استفاده از محیط‌های اجرای مورد اعتماد (TEEها) مانند Intel SGX به عنوان جایگزین یا مکمل PIR رمزنگاری.
گسترش مدل به تنظیمات PIR توزیع‌شده یا چندسروری برای بهبود بالقوه عملکرد.

8. تحلیل اصلی و نظرات کارشناسی

بینش اصلی: این مقاله درباره سریع‌تر شکستن رمزهای عبور نیست؛ درباره شکستن آن‌ها بی‌سر و صدا است. نویسندگان یک شکاف عملیاتی آشکار در امنیت تهاجمی را شناسایی کرده‌اند: ردپای دیجیتال. هنگامی که یک عضو تیم قرمز از یک سرویس شکستن ابری پرس‌وجو می‌کند، آن فراداده پرس‌وجو یک مسئولیت است. این کار پیشنهاد می‌کند که خود قصد با استفاده از PIR رمزگذاری شود و سرور را «ناآگاه» کند. این یک مثال کلاسیک از اعمال نظریه رمزنگاری پیشرفته (PIR) به یک مشکل واقعی و دشوار امنیت اطلاعات است. اهمیت آن مشابه ملاحظات حریم خصوصی در حملات وارونگی مدل یا حملات استنتاج عضویت علیه APIهای یادگیری ماشین است، جایی که خود پرس‌وجو می‌تواند اطلاعات حساس را فاش کند.

جریان منطقی: استدلال از نظر منطقی محکم است. ۱) تعریف مدل تهدید: یک سرور شخص ثالث غیرقابل اعتماد. ۲) انتخاب اولیه رمزنگاری مناسب: PIR محاسباتی پایگاه داده واحد، که تنها گزینه عملی برای این سناریوی تک‌سروری بدون تبانی است. ۳) تطبیق اولیه شکستن: انتخاب جداول هلمن به جای جداول رنگین‌کمان زیرا ساختار آن‌ها به پرس‌وجوهای PIR کمتر و قطعی‌تر در هر تلاش شکست نیاز دارد. این یک تصمیم مهندسی حیاتی است که دانش عمیق حوزه را نشان می‌دهد. جریان از مشکل به ابزار رمزنگاری و سپس یکپارچه‌سازی سیستم‌ها منسجم است.

نقاط قوت و ضعف: نقطه قوت اصلی نوآوری و کاربردپذیری مستقیم است. نمونه اولیه امکان‌پذیری مفهوم را ثابت می‌کند. با این حال، نقاط ضعف عملی هستند. سربار عملکرد PIR بسیار زیاد است. همانطور که نویسندگان اشاره می‌کنند، کار سرور $O(n)$ است. برای جداول بزرگ (ترابایت)، این برای یک سرویس تجاری ممنوع است. این یک راه‌حل است که حریم خصوصی کامل را بر هرگونه شباهتی به کارایی اولویت می‌دهد. علاوه بر این، فقط از پرس‌وجو محافظت می‌کند. سرور همچنان می‌داند که مشتری در حال انجام یک عملیات شکستن است، که ممکن است در برخی حوزه‌های قضایی برای ایجاد هشدار کافی باشد. در مقایسه با رویکردهای رمزگذاری کاملاً همومورفیک (FHE) در حال ظهور، این روش مبتنی بر PIR ساده‌تر اما به مراتب انعطاف‌پذیری کمتری دارد.

بینش‌های عملی: برای متخصصان امنیت، این یک نقشه راه برای ابزارسازی تهاجمی با اطمینان بالا و حفظ حریم خصوصی است. برای محققان، رگه‌ای از کار بر روی PIR کارآمد و قابل استفاده را باز می‌کند. گام بعدی فوری، معیارسازی این روش در مقابل یک رویکرد مبتنی بر TEE (مانند اجرای منطق شکستن در داخل یک محفظه SGX) است. TEE محاسبات را به صورت خصوصی با سربار بالقوه کمتر از PIR رمزنگاری انجام می‌دهد، اگرچه اعتماد به فروشنده سخت‌افزار را معرفی می‌کند. دیدگاه بلندمدت باید یک مدل ترکیبی باشد: استفاده از PIR برای جستجوی شاخص اولیه و حساس‌ترین، و شاید سخت‌افزار مورد اعتماد برای مراحل بعدی، تا فرضیات اعتماد و عملکرد متعادل شوند. این کار، مانند مقاله پایه CycleGAN که شبکه‌ها را برای ترجمه تصویر جفت‌نشده به طور خلاقانه ترکیب کرد، نشان می‌دهد که چگونه ترکیب دو فناوری بالغ (جداول هلمن و PIR) می‌تواند یک راه‌حل نوآورانه برای یک مشکل خاص اما مهم ایجاد کند.

9. جزئیات فنی و فرمول‌بندی ریاضی

هسته یک زنجیره هلمن برای یک تابع هش $H$ و تابع کاهش $R$ به صورت تکراری تعریف می‌شود. با توجه به یک متن ساده شروع $P_0$: $$X_0 = P_0$$ $$X_{k+1} = H(R(X_k)) \quad \text{برای } k = 0, 1, ..., t-1$$ نقطه پایانی زنجیره $X_t$ است. جدول جفت‌های $(P_0, X_t)$ را ذخیره می‌کند. برای معکوس کردن یک هش $h$، یک زنجیره آزمایشی از $h$ محاسبه می‌شود: $Y_0 = h$، $Y_1 = H(R(Y_0))$، ...، $Y_t = H(R(Y_{t-1}))$. در هر مرحله $j$، بررسی می‌شود که آیا $R(Y_j)$ یک نقطه متمایز است یا آیا $Y_j$ با یک نقطه پایانی ذخیره‌شده $X_t$ مطابقت دارد، که باعث بازتولید زنجیره برای یافتن پیش‌تصویر می‌شود. در نسخه تطبیق‌یافته با PIR، بررسی در برابر فهرست نقاط پایانی ذخیره‌شده سرور از طریق یک پرس‌وجوی PIR روی شاخص مربوط به $R(Y_j)$ یا $Y_j$ انجام می‌شود.

10. چارچوب تحلیل و مطالعه موردی

مطالعه موردی: تست نفوذ امن به عنوان یک سرویس (PTaaS)
یک پلتفرم PTaaS مبتنی بر ابر را تصور کنید که حسابرسی رمز عبور ارائه می‌دهد. یک شرکت مشتری فهرستی از هش‌های رمز عبور را از سیستم خود برای یک حسابرسی امنیتی آپلود می‌کند. با استفاده از یک سرویس استاندارد، ارائه‌دهنده ابر می‌فهمد که هش‌های خاص شرکت با کدام رمزهای عبور مطابقت دارند، که یک نقض بالقوه است. با استفاده از چارچوب سرور ناآگاه:

ابزار حسابرسی مشتری هر هش هدف $h$ را پیش‌پردازش می‌کند.
برای هر $h$، به صورت محلی شاخص‌های لازم $i_1, i_2, ... i_k$ را در جداول هلمن ارائه‌دهنده محاسبه می‌کند.
از یک پروتکل PIR برای تولید پرس‌وجوهای رمزگذاری‌شده برای این شاخص‌ها استفاده می‌کند و آن‌ها را به سرور PTaaS می‌فرستد.
سرور تمام پرس‌وجوها را پردازش می‌کند (کار روی کل پایگاه داده خود انجام می‌دهد) و بلوک‌های رمزگذاری‌شده داده را برمی‌گرداند.
مشتری پاسخ‌ها را رمزگشایی می‌کند و به صورت محلی پردازش می‌کند تا ببیند آیا تطابق زنجیره‌ای یافت شده است یا خیر، و رمزهای عبور متن ساده را بازیابی می‌کند.

در طول این فرآیند، ارائه‌دهنده PTaaS فقط پرس‌وجوهای رمزگذاری‌شده و تصادفی‌مانند را می‌بیند و هیچ چیز درباره اینکه مشتری کدام هش‌ها را آزمایش می‌کرده نمی‌فهمد، و در نتیجه محرمانگی مجموعه رمزهای عبور داخلی مشتری حفظ می‌شود.

11. کاربردهای آینده و جهت‌گیری‌ها

اصول این تحقیق فراتر از شکستن رمز عبور گسترش می‌یابد:

جستجوهای اطلاعات تهدید با حفظ حریم خصوصی: پرس‌وجو از شاخص‌های خطر (IOCها) از یک پایگاه داده مشترک بدون افشای دارایی‌های خود.
تطابق توالی DNA محرمانه: یک بیمارستان می‌تواند از یک پایگاه داده ژنومی برای نشانگرهای بیماری پرس‌وجو کند بدون اینکه ژنوم کامل بیمار را فاش کند.
فیلتر کردن خصوصی در تحلیل لاگ: جستجو در لاگ‌های امنیتی مشترک برای الگوهای حمله بدون افشای الگوهای خاصی که سازمان شما نسبت به آن‌ها آسیب‌پذیر است.
همگرایی با رمزگذاری کاملاً همومورفیک (FHE) یک جهت کلیدی است. در حالی که PIR الگوی دسترسی را پنهان می‌کند، FHE می‌تواند به سرور اجازه دهد کل محاسبه شکستن را روی داده‌های رمزگذاری‌شده انجام دهد و فقط یک نتیجه رمزگذاری‌شده را برگرداند. پروژه‌هایی مانند SEAL مایکروسافت و OpenFHE این را عملی‌تر می‌کنند.
ادغام با حریم خصوصی تفاضلی می‌تواند یک لایه حریم خصوصی آماری اضافه کند و اطمینان حاصل کند که حتی موفقیت یا شکست یک پرس‌وجو اطلاعات زیادی را فاش نمی‌کند.

12. مراجع

Calvo, A., Futoransky, A., & Sarraute, C. (2013). An Oblivious Password Cracking Server. arXiv preprint arXiv:1307.8186.
Hellman, M. (1980). A cryptanalytic time-memory trade-off. IEEE Transactions on Information Theory, 26(4), 401-406.
Rivest, R. L. (1982). How to reuse a "write-once" memory. (MIT Laboratory for Computer Science Technical Report).
Oechslin, P. (2003). Making a faster cryptanalytic time-memory trade-off. Advances in Cryptology - CRYPTO 2003 (pp. 617-630). Springer.
Chor, B., Goldreich, O., Kushilevitz, E., & Sudan, M. (1995). Private information retrieval. Proceedings of IEEE 36th Annual Symposium on Foundations of Computer Science (pp. 41-50). IEEE.
Zhu, J. Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. Proceedings of the IEEE international conference on computer vision (pp. 2223-2232). (به عنوان یک مثال مشابه از ترکیب خلاقانه فناوری ذکر شده است).
Microsoft Research. (n.d.). Microsoft SEAL (Simple Encrypted Arithmetic Library). Retrieved from https://www.microsoft.com/en-us/research/project/microsoft-seal/