تقسیم‌بندی تصاویر ریه با استفاده از شبکه‌های مولد تخاصمی (GANs): یک تحلیل فنی

1. مقدمه

تقسیم‌بندی تصاویر ریه یک مرحله پیش‌پردازش حیاتی در سیستم‌های تشخیص به کمک رایانه (CAD) برای بیماری‌های ریوی مانند سرطان ریه، COPD و کووید-۱۹ است. تقسیم‌بندی دقیق میدان‌های ریوی و ندول‌ها از تصاویر سی‌تی یا ایکس‌ری برای تحلیل کمی، پایش بیماری و برنامه‌ریزی درمان ضروری است. روش‌های سنتی تقسیم‌بندی، از جمله آستانه‌گذاری، رشد ناحیه‌ای و مجموعه‌های سطحی، اغلب با چالش‌های ذاتی تصاویر پزشکی دست و پنجه نرم می‌کنند: نویز، کنتراست پایین و تنوع آناتومیک.

این مقاله رویکردی نوین را با قالب‌بندی وظیفه تقسیم‌بندی به عنوان یک مسئله ترجمه تصویر به تصویر با استفاده از شبکه‌های مولد تخاصمی (GANs) پیشنهاد می‌دهد. به طور خاص، از معماری Pix2Pix برای ترجمه یک تصویر خام ریه به ماسک تقسیم‌بندی شده متناظر آن استفاده می‌کند. این تغییر پارادایم از طبقه‌بندی پیکسل به پیکسل به تولید تصویر شرطی، هدف تولید نتایج تقسیم‌بندی منسجم‌تر و دقیق‌تری را دنبال می‌کند، به ویژه برای موارد چالش‌برانگیز مانند ندول‌های کوچک یا پنهان.

2. روش

روش اصلی شامل استفاده از یک چارچوب GAN شرطی برای یادگیری نگاشت از یک تصویر ورودی ریه به یک نقشه تقسیم‌بندی خروجی است.

2.1 شبکه‌های مولد تخاصمی (GAN)

یک GAN از دو شبکه عصبی، مولد ($G$) و ممیز ($D$) تشکیل شده است که به طور همزمان در یک بازی مینیمکس آموزش می‌بینند. مولد یاد می‌گیرد تا نمونه‌های داده واقعی را از یک بردار نویز یا در GANهای شرطی، از یک تصویر ورودی تولید کند. ممیز یاد می‌گیرد تا بین نمونه‌های واقعی (ماسک‌های تقسیم‌بندی حقیقی) و نمونه‌های جعلی (ماسک‌های تولید شده) تمایز قائل شود. تابع هدف برای یک GAN استاندارد به صورت زیر است:

$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]$

که در آن $x$ داده واقعی و $z$ نویز ورودی است. در حالت شرطی (cGAN)، هر دو $G$ و $D$ اطلاعات اضافی، مانند تصویر ورودی را دریافت می‌کنند.

2.2 Pix2Pix برای ترجمه تصویر

مقاله از مدل Pix2Pix، یک معماری cGAN بنیادین معرفی شده توسط Isola و همکاران (۲۰۱۷) استفاده می‌کند. Pix2Pix از یک مولد مبتنی بر U-Net برای مکانیابی دقیق و یک ممیز PatchGAN استفاده می‌کند که تکه‌های محلی تصویر را به عنوان واقعی یا جعلی طبقه‌بندی می‌کند و جزئیات فرکانس بالا را تشویق می‌نماید. تابع زیان، زیان تخاصمی استاندارد GAN را با یک زیان بازسازی L1 ترکیب می‌کند:

$\mathcal{L}_{cGAN}(G, D) = \mathbb{E}_{x,y}[\log D(x, y)] + \mathbb{E}_{x,z}[\log(1 - D(x, G(x, z)))]$

$\mathcal{L}_{L1}(G) = \mathbb{E}_{x,y,z}[\|y - G(x, z)\|_1]$

$G^* = \arg \min_G \max_D \mathcal{L}_{cGAN}(G, D) + \lambda \mathcal{L}_{L1}(G)$

در اینجا، $x$ تصویر ورودی ریه، $y$ ماسک تقسیم‌بندی هدف، $z$ نویز و $\lambda$ وزن زیان L1 را کنترل می‌کند.

2.3 کاربرد در تقسیم‌بندی تصاویر ریه

در این زمینه، ورودی $x$ برش سی‌تی خاکستری اصلی ریه است. هدف $y$ ماسک باینری است که پیکسل‌های متعلق به پارانشیم ریه (و به طور بالقوه ندول‌ها) در آن علامت‌گذاری شده‌اند. مولد $G$ نگاشت $G: x \rightarrow y$ را یاد می‌گیرد. آموزش تخاصمی، $G$ را مجبور می‌کند تا ماسک‌هایی تولید کند که نه تنها از نظر پیکسلی دقیق هستند (از طریق زیان L1) بلکه از نظر ساختاری معقول و غیرقابل تشخیص از ماسک‌های واقعی هستند (از طریق ممیز).

3. جزئیات فنی و چارچوب ریاضی

موفقیت به توانایی مولد U-Net در ثبت زمینه و مکانیابی دقیق از طریق ساختار رمزگذار-رمزگشای آن با اتصالات پرشی وابسته است. تمرکز ممیز PatchGAN بر روی بافت محلی، از تولید نتایج تار توسط مولد که با یک زیان خالص L1/L2 رایج است، جلوگیری می‌کند. تابع زیان ترکیبی حیاتی است:

زیان تخاصمی ($\mathcal{L}_{cGAN}$): واقع‌گرایی ساختاری کلی ماسک تولید شده را تضمین می‌کند.
زیان L1 ($\mathcal{L}_{L1}$): صحت فرکانس پایین را اعمال می‌کند و اطمینان می‌دهد که ماسک در سطح پیکسل با حقیقت زمین‌یابی هم‌راستا است.

فرآیند آموزش ذاتاً ناپایدار است و نیاز به تنظیم دقیق ابرپارامترها، نرمال‌سازی دسته‌ای و تکنیک‌هایی مانند نرمال‌سازی نمونه برای جلوگیری از فروپاشی حالت دارد.

4. نتایج آزمایشی و تحلیل

مقاله گزارش می‌دهد که روش پیشنهادی مبتنی بر Pix2Pix بر روی یک مجموعه داده واقعی تصاویر ریه آزمایش شده است. در حالی که جزئیات خاص مجموعه داده (مانند LIDC-IDRI، LUNA16) و معیارهای کمی (مانند ضریب Dice، شاخص Jaccard، حساسیت) به طور کامل در بخش ارائه شده ذکر نشده است، نویسندگان ادعا می‌کنند که این روش "موثر است و از روش‌های پیشرفته فعلی بهتر عمل می‌کند."

نتایج ضمنی و توصیف نمودار: یک بخش نتایج معمولی برای چنین کاری شامل موارد زیر خواهد بود:

مقایسه کیفی: تجسم‌های کنار هم از برش‌های سی‌تی ورودی، ماسک‌های حقیقی زمین‌یابی و پیش‌بینی‌های روش GAN پیشنهادی در مقابل معیارها (مانند U-Net، FCN). خروجی GAN احتمالاً مرزهای واضح‌تری در اطراف لوب‌های ریه و ثبت بهتری از کانتورهای ندول‌های کوچک را در مقایسه با خروجی‌های احتمالی تار CNN نشان می‌دهد.
جدول معیارهای کمی: جدولی که نمره Dice، دقت، بازیابی و فاصله Hausdorff را در روش‌های مختلف مقایسه می‌کند. رویکرد مبتنی بر GAN احتمالاً در صدر جدول قرار می‌گیرد، به ویژه در معیارهای حساس به دقت مرزی.
تحلیل موارد شکست: بحث در مورد محدودیت‌ها، مانند کاهش عملکرد روی تصاویر با پاتولوژی‌های شدید (تجمعات بزرگ) یا نویز شدید، جایی که مولد ممکن است ساختارهای نادرستی را توهم کند.

5. چارچوب تحلیل: بینش اصلی و نقد

بینش اصلی: گزاره بنیادی این مقاله جسورانه اما منطقی است: تقسیم‌بندی تصاویر پزشکی را نه به عنوان یک وظیفه طبقه‌بندی، بلکه به عنوان یک مسئله انتقال سبک در نظر بگیرید. بینش واقعی فقط استفاده از یک GAN نیست، بلکه تشخیص این است که یک ماسک تقسیم‌بندی با کیفیت بالا یک نسخه "سبک‌دار" شده از تصویر اصلی است که در آن "سبک" حقیقت آناتومیک است. این قالب‌بندی مجدد به مدل اجازه می‌دهد تا از پیش‌فرض‌های قدرتمند سنتز تصویر یادگرفته شده از داده‌ها استفاده کند و به طور بالقوه نیاز به توابع زیان دست‌ساز برای همواری یا اتصال مرز را دور می‌زند.

جریان منطقی: استدلال منسجم است. ۱) روش‌های سنتی و یادگیری عمیق (U-Net) نقص‌های شناخته شده‌ای دارند (مرزهای تار، عملکرد ضعیف روی ویژگی‌های ظریف). ۲) GANها، به ویژه Pix2Pix، در یادگیری فضاهای خروجی ساختاریافته و حفظ جزئیات ظریف عالی هستند. ۳) بنابراین، اعمال Pix2Pix روی تصاویر ریه باید تقسیم‌بندی‌های برتری به ویژه برای ندول‌های کوچک چالش‌برانگیز تولید کند. منطق صحیح است، اگرچه فرض می‌کند مزایای آموزش تخاصمی بر پیچیدگی آن می‌چربد.

نقاط قوت و ضعف:
نقاط قوت: رویکرد از نظر تئوری ظریف است. زیان تخاصمی یک معیار شباهت یادگرفته شده قدرتمند است که می‌تواند روابط پیچیده و غیرمحلی را بهتر از زیان‌های پیکسل به پیکسل ثبت کند. این روش پتانسیل بالایی برای تولید تقسیم‌بندی‌های آناتومیکاً معقول حتی با ورودی‌های مبهم دارد، همانطور که در کارهای مرتبط مانند "CycleGAN: ترجمه تصویر به تصویر بدون جفت" (Zhu و همکاران، ۲۰۱۷) نشان داده شده است که توانایی GANها در یادگیری ویژگی‌های ناوردای دامنه را نشان می‌دهد.
نقاط ضعف بحرانی: مقاله، همانطور که ارائه شده است، از کمبود عمق رنج می‌برد. ادعای بهتر عمل کردن نسبت به روش‌های پیشرفته فعلی جسورانه است اما در اینجا توسط معیارهای مشخص یا رقبای نام‌برده پشتیبانی نشده است. آموزش GANها به طور بدنامی دشوار و ناپایدار است و نیاز به داده‌های گسترده، تنظیم دقیق و منابع محاسباتی دارد. فرآیند تصمیم‌گیری مدل یک "جعبه سیاه" است که نگرانی‌های قابل توجهی برای استقرار بالینی که در آن تبیین‌پذیری بسیار مهم است، ایجاد می‌کند. همچنین خطر "تکمیل" ساختارهای معقول اما نادرست توسط مولد در موارد با پاتولوژی شدید وجود دارد که یک مسئله شناخته شده با مدل‌های مولد است.

بینش‌های عملی: برای پژوهشگران: این را به عنوان یک راه‌حل آماده به کار در نظر نگیرید. کار واقعی پس از انتخاب Pix2Pix آغاز می‌شود. بر روی موارد زیر تمرکز کنید:

زیان‌های ترکیبی: زیان‌های خاص وظیفه (مانند زیان Dice) را با زیان تخاصمی ادغام کنید تا آموزش پایدارتر و بهینه‌سازی معیار بهتر حاصل شود.
سخت‌گیری در اعتبارسنجی: نه تنها در مقابل روش‌های قدیمی، بلکه در مقابل معیارهای قوی معاصر مانند nnU-Net (Isensee و همکاران، ۲۰۲۱)، استاندارد فعلی تقسیم‌بندی پزشکی، ارزیابی کنید.
تبیین‌پذیری: از تکنیک‌هایی مانند Grad-CAM یا نقشه‌های توجه برای تفسیر اینکه ممیز بر کدام نواحی تصویر تمرکز می‌کند، استفاده کنید تا اعتماد ایجاد شود.
پایلوت بالینی: فراتر از معیارهای مجموعه داده به اعتبارسنجی دنیای واقعی با رادیولوژیست‌ها بروید و زمان صرفه‌جویی شده و هماهنگی تشخیصی را اندازه‌گیری کنید.

برای متخصصان: با خوش‌بینی محتاطانه برخورد کنید. این تکنیک برای وظایف فرعی مانند پالایش تقسیم‌بندی‌های خشن یا مدیریت حالت‌های چالش‌برانگیز خاص امیدوارکننده است، اما هنوز جایگزینی برای مدل‌های قوی و قابل تفسیر مانند U-Net در خطوط تولید نیست.

6. نمونه موردی چارچوب تحلیل

سناریو: ارزیابی عملکرد مدل GAN در تقسیم‌بندی ندول‌های مجاور جنبی—ندول‌های متصل به دیواره ریه که به طور بدنامی برای الگوریتم‌های سنتی جدا کردن آن‌ها دشوار است.

کاربرد چارچوب:

بینش اصلی: ممیز تخاصمی باید یاد بگیرد که یک ماسک ریه واقعی دارای یک مرز جنبی صاف و پیوسته است. یک تقسیم‌بندی که به اشتباه یک ندول مجاور جنبی را قطع می‌کند، یک فرورفتگی غیرطبیعی در این مرز ایجاد می‌کند که ممیز می‌تواند آن را به عنوان "جعلی" علامت‌گذاری کند.
جریان منطقی: ورودی: برش سی‌تی با یک ندول ظریف متصل به دیواره. U-Net ممکن است به دلیل گرادیان‌های لبه ضعیف آن را دست کم بگیرد. مولد GAN، که توسط ممیز برای تولید یک کانتور ریه "غیر آناتومیک" جریمه می‌شود، تشویق می‌شود تا ندول را برای حفظ همواری مرز شامل شود.
نقاط قوت و ضعف: قوت: پتانسیل حساسیت برتر برای این ندول‌های خاص. ضعف: خطر خطای مخالف—مولد ممکن است "توهم" کند و یک شکاف یا فرورفتگی واقعی را هموار کند و به اشتباه یک ندول را به پارانشیم متصل کند.
بینش عملی: برای کاهش ضعف، می‌توان ممیز را نه تنها بر روی ماسک، بلکه بر روی نقشه لبه تصویر ورودی نیز شرطی کرد تا "واقع‌گرایی" را در ویژگی‌های تصویر سطح پایه مستقر کند. ارزیابی باید شامل یک تحلیل خاص "زیرمجموعه ندول‌های مجاور جنبی" در نتایج باشد.

7. کاربردهای آینده و جهت‌های پژوهشی

پارادایم تقسیم‌بندی مبتنی بر GAN چندین مسیر امیدوارکننده را باز می‌کند:

تقسیم‌بندی چندوجهی: گسترش چارچوب برای ترجمه بین حالت‌های مختلف تصویربرداری (مانند سی‌تی به PET) در حین انجام تقسیم‌بندی، با استفاده از ویژگی‌های آناتومیک مشترک.
یادگیری بدون نظارت و نیمه‌نظارتی: استفاده از چارچوب‌هایی مانند CycleGAN برای تقسیم‌بندی در سناریوهایی که داده‌های جفت شده تصویر-ماسک کمیاب است، اما تصاویر بدون برچسب فراوان هستند.
تقسیم‌بندی حجمی سه‌بعدی: حرکت از برش‌های دو‌بعدی به حجم‌های سه‌بعدی با استفاده از معماری‌هایی مانند 3D Pix2Pix یا Vox2Vox، برای ثبت زمینه فضایی حیاتی برای تقسیم‌بندی لوب ریه و درخت عروقی.
تقسیم‌بندی و طبقه‌بندی بیماری مشترک: آموزش یک GAN شرطی واحد برای تقسیم‌بندی ریه و تولید یک نقشه احتمال ضایعه، همانطور که در کارهای اخیر روی "GANهای تشخیصی" بررسی شده است.
یادگیری فدرال برای مراقبت سلامت: توسعه پروتکل‌های آموزش GAN که حریم خصوصی بیمار را با یادگیری از داده‌های بیمارستانی غیرمتمرکز بدون اشتراک‌گذاری تصاویر خام حفظ می‌کند، که یک مانع بزرگ در هوش مصنوعی پزشکی است.
ادغام با مدل‌های انتشار: کاوش نسل بعدی مدل‌های مولد، مدل‌های انتشار، که آموزش پایدارتر و خروجی‌های با کیفیت بالقوه بالاتری برای تقسیم‌بندی آناتومیک دقیق ارائه می‌دهند.

8. مراجع

Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems (NeurIPS).
Isola, P., Zhu, J.-Y., Zhou, T., & Efros, A. A. (2017). Image-to-Image Translation with Conditional Adversarial Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI).
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
Isensee, F., Jaeger, P. F., Kohl, S. A., Petersen, J., & Maier-Hein, K. H. (2021). nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation. Nature Methods.
Litjens, G., et al. (2017). A survey on deep learning in medical image analysis. Medical Image Analysis.
National Cancer Institute. The Cancer Imaging Archive (TCIA). https://www.cancerimagingarchive.net/ (Datasets like LIDC-IDRI).