تجزئة صور الرئة باستخدام الشبكات التوليدية التنافسية (GANs): تحليل تقني

1. المقدمة

تعد تجزئة صور الرئة خطوة معالجة أولية حاسمة في أنظمة التشخيص بمساعدة الحاسوب (CAD) للأمراض الرئوية، مثل سرطان الرئة ومرض الانسداد الرئوي المزمن (COPD) وكوفيد-19. إن التجزئة الدقيقة للحقول الرئوية والعقيدات الرئوية من صور التصوير المقطعي المحوسب (CT) أو الأشعة السينية أمر أساسي للتحليل الكمي ومراقبة المرض وتخطيط العلاج. غالبًا ما تواجه الطرق التقليدية للتجزئة، بما في ذلك العتبات والنمو الإقليمي ومجموعات المستوى، صعوبات مع التحديات الكامنة في الصور الطبية: الضوضاء، والتباين المنخفض، والتباين التشريحي.

تقترح هذه الورقة نهجًا جديدًا من خلال صياغة مهمة التجزئة على أنها مشكلة تحويل من صورة إلى صورة باستخدام الشبكات التوليدية التنافسية (GANs). على وجه التحديد، تستفيد من بنية Pix2Pix لتحويل صورة الرئة الخام إلى قناع التجزئة المقابل لها. يهدف هذا التحول النموذجي من التصنيف على مستوى البكسل إلى توليد الصور الشرطي إلى إنتاج نتائج تجزئة أكثر تماسكًا وتفصيلاً، خاصة للحالات الصعبة مثل العقيدات الصغيرة أو المخفية.

2. المنهجية

تتضمن المنهجية الأساسية استخدام إطار عمل GAN شرطي لتعلم التعيين من صورة الرئة المدخلة إلى خريطة التجزئة المخرجة.

2.1 الشبكات التوليدية التنافسية (GAN)

تتكون الشبكة التوليدية التنافسية (GAN) من شبكتين عصبونيتين، المُوَلِّد ($G$) والمُمَيِّز ($D$)، يتم تدريبهما في وقت واحد في لعبة تصغير-تعظيم (minimax). يتعلم المُوَلِّد إنتاج عينات بيانات واقعية من متجه ضوضاء أو، في حالة GANs الشرطية، من صورة مدخلة. يتعلم المُمَيِّز التمييز بين العينات الحقيقية (أقنعة التجزئة الأرضية الحقيقية) والعينات المزيفة (الأقنعة المُوَلَّدة). دالة الهدف لـ GAN القياسية هي:

$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]$

حيث $x$ هي البيانات الحقيقية و $z$ هي ضوضاء الإدخال. في الإعداد الشرطي (cGAN)، يتلقى كل من $G$ و $D$ معلومات إضافية، مثل صورة الإدخال.

2.2 Pix2Pix لتحويل الصور

تستخدم الورقة نموذج Pix2Pix، وهو بنية cGAN أساسية قدمها Isola وآخرون (2017). يستخدم Pix2Pix مُوَلِّدًا قائمًا على U-Net للتوطين الدقيق ومُمَيِّز PatchGAN يصنف أجزاء الصورة المحلية على أنها حقيقية أو مزيفة، مما يشجع على التفاصيل عالية التردد. تجمع دالة الخسارة بين خسارة الخصومة القياسية لـ GAN وخسارة إعادة البناء L1:

$\mathcal{L}_{cGAN}(G, D) = \mathbb{E}_{x,y}[\log D(x, y)] + \mathbb{E}_{x,z}[\log(1 - D(x, G(x, z)))]$

$\mathcal{L}_{L1}(G) = \mathbb{E}_{x,y,z}[\|y - G(x, z)\|_1]$

$G^* = \arg \min_G \max_D \mathcal{L}_{cGAN}(G, D) + \lambda \mathcal{L}_{L1}(G)$

هنا، $x$ هي صورة الرئة المدخلة، $y$ هي قناع التجزئة المستهدف، $z$ هي الضوضاء، و $\lambda$ تتحكم في وزن خسارة L1.

2.3 التطبيق على تجزئة صور الرئة

في هذا السياق، الإدخال $x$ هو شريحة التصوير المقطعي المحوسب للرئة ذات التدرج الرمادي الأصلية. الهدف $y$ هو القناع الثنائي حيث يتم تمييز البكسلات التي تنتمي إلى نسيج الرئة (وربما العقيدات). يتعلم المُوَلِّد $G$ التعيين $G: x \rightarrow y$. يجبر التدريب الخصومي $G$ على إنتاج أقنعة ليست دقيقة على مستوى البكسل فقط (عبر خسارة L1) ولكن أيضًا معقولة هيكليًا ولا يمكن تمييزها عن الأقنعة الحقيقية (عبر المُمَيِّز).

3. التفاصيل التقنية والإطار الرياضي

يعتمد النجاح على قدرة مُوَلِّد U-Net على التقاط السياق والتوطين الدقيق من خلال هيكله المُشَفِّر-فَك التشفير مع وصلات التخطي. يركز مُمَيِّز PatchGAN على النسيج المحلي مما يمنع المُوَلِّد من إنتاج نتائج ضبابية شائعة مع خسارة L1/L2 البحتة. دالة الخسارة المجمعة حرجة:

خسارة الخصومة ($\mathcal{L}_{cGAN}$): تضمن واقعية الهيكل العالمي للقناع المُوَلَّد.
خسارة L1 ($\mathcal{L}_{L1}$): تفرض صحة التردد المنخفض، مما يضمن محاذاة القناع مع الحقيقة الأرضية على مستوى البكسل.

عملية التدريب غير مستقرة بطبيعتها، مما يتطلب ضبطًا دقيقًا للمعاملات الفائقة والتطبيع الدفعي وتقنيات مثل التطبيع على مستوى العينة لمنع انهيار الأنماط (mode collapse).

4. النتائج التجريبية والتحليل

تذكر الورقة اختبار الطريقة المقترحة القائمة على Pix2Pix على مجموعة بيانات حقيقية لصور الرئة. بينما لم يتم تفصيل معلومات مجموعة البيانات المحددة (مثل LIDC-IDRI، LUNA16) والمقاييس الكمية (مثل معامل ديس Dice، مؤشر جاكارد Jaccard، الحساسية) بشكل شامل في المقتطف المقدم، يدعي المؤلفون أن الطريقة "فعالة وتتفوق على أحدث الطرق."

النتائج الضمنية ووصف الرسم البياني: سيتضمن قسم النتائج النموذجي لمثل هذا العمل:

مقارنة نوعية: تصورات جنبًا إلى جنب لشرائح التصوير المقطعي المحوسب المدخلة، وأقنعة الحقيقة الأرضية، وتوقعات طريقة GAN المقترحة مقابل المعايير المرجعية (مثل U-Net، FCN). من المرجح أن يظهر ناتج GAN حدودًا أكثر حدة حول فصوص الرئة وتقاط أفضل لملامح العقيدات الصغيرة مقارنة بمخرجات الشبكات العصبية التلافيفية (CNN) التي قد تكون أكثر ضبابية.
جدول المقاييس الكمية: جدول يقارن درجة ديس Dice، والدقة Precision، والاستدعاء Recall، ومسافة هاوسدورف Hausdorff عبر طرق مختلفة. من المفترض أن تقود الطريقة القائمة على GAN الجدول، خاصة في المقاييس الحساسة لدقة الحدود.
تحليل حالات الفشل: مناقشة القيود، مثل تدهور الأداء على الصور ذات الأمراض الشديدة (تصلبات كبيرة) أو الضوضاء الشديدة، حيث قد يهيئ المُوَلِّد هياكل غير صحيحة.

5. إطار التحليل: الفكرة الأساسية والنقد

الفكرة الأساسية: الاقتراح الأساسي لهذه الورقة جريء ولكنه منطقي: التعامل مع تجزئة الصور الطبية ليس كمهمة تصنيف، ولكن كمشكلة نقل النمط. الفكرة الحقيقية ليست مجرد استخدام GAN، ولكن الاعتراف بأن قناع التجزئة عالي الجودة هو نسخة "منمقة" من الصورة الأصلية حيث "النمط" هو الحقيقة التشريحية. يسمح هذا الإعادة للصياغة للنموذج بالاستفادة من مقدمات توليد الصور القوية المكتسبة من البيانات، مما قد يتجاوز الحاجة إلى دوال خسارة مصممة يدويًا لنعومة الحدود أو الاتصال.

التدفق المنطقي: الحجة متماسكة. 1) للطرق التقليدية والتعلم العميق (U-Net) عيوب معروفة (حدود ضبابية، أداء ضعيف على الميزات الدقيقة). 2) تتفوق GANs، وخاصة Pix2Pix، في تعلم مساحات المخرجات المنظمة والحفاظ على التفاصيل الدقيقة. 3) لذلك، يجب أن يؤدي تطبيق Pix2Pix على صور الرئة إلى تجزئة متفوقة، خاصة للعقيدات الصغيرة الصعبة. المنطق سليم، على الرغم من أنه يفترض أن فوائد التدريب الخصومي تفوق تعقيده.

نقاط القوة والعيوب:
نقاط القوة: النهج أنيق نظريًا. خسارة الخصومة هي مقياس تشابه قوي مُتَعَلَّم يمكنه التقاط علاقات معقدة وغير محلية أفضل من الخسائر على مستوى البكسل. لديها إمكانات عالية لتوليد تجزئات تشريحية معقولة حتى مع المدخلات الغامضة، كما لوحظ في الأعمال ذات الصلة مثل "CycleGAN: Unpaired Image-to-Image Translation" (Zhu et al., 2017) الذي يظهر قدرة GANs على تعلم ميزات مستقلة عن المجال.
العيوب الحرجة: تعاني الورقة، كما هي مقدمة، من نقص في العمق. ادعاء التفوق على أحدث الطرق جريء ولكنه غير مدعوم هنا بمقاييس ملموسة أو منافسين مسمى. من المعروف أن تدريب GANs صعب وغير مستقر - يتطلب بيانات واسعة، وضبطًا دقيقًا، وموارد حاسوبية. عملية اتخاذ القرار للنموذج هي "صندوق أسود"، مما يثير مخاوف كبيرة للنشر السريري حيث تكون القابلية للتفسير أمرًا بالغ الأهمية. هناك أيضًا خطر من أن "يملأ" المُوَلِّد هياكل معقولة ولكن غير صحيحة في الحالات المرضية الشديدة، وهي مشكلة معروفة في النماذج التوليدية.

رؤى قابلة للتنفيذ: للباحثين: لا تعامل هذا كحل جاهز. العمل الحقيقي يبدأ بعد اختيار Pix2Pix. ركز على:

الخسائر الهجينة: دمج الخسائر الخاصة بالمهمة (مثل خسارة ديس Dice) مع خسارة الخصومة لتدريب أكثر استقرارًا وتحسين أفضل للمقاييس.
صرامة التحقق: قارن ليس فقط مع الطرق القديمة ولكن مع المعايير المرجعية القوية المعاصرة مثل nnU-Net (Isensee et al., 2021)، المعيار الفعلي الحالي في تجزئة الصور الطبية.
القابلية للتفسير: استخدم تقنيات مثل Grad-CAM أو خرائط الانتباه لتفسير مناطق الصورة التي يركز عليها المُمَيِّز، لبناء الثقة.
التجربة السريرية الأولية: انتقل من مقاييس مجموعة البيانات إلى التحقق من صحة العالم الحقيقي مع أخصائيي الأشعة، وقياس الوقت المُوَفَّر والتوافق التشخيصي.

للممارسين: تعامل بتفاؤل حذر. التقنية واعدة للمهام الفرعية مثل تحسين التجزئات الخشنة أو التعامل مع وسائط تصوير صعبة محددة، لكنها ليست بعد بديلاً للنماذج القوية والقابلة للتفسير مثل U-Net في خطوط الإنتاج.

6. مثال تطبيقي لإطار التحليل

السيناريو: تقييم أداء نموذج GAN في تجزئة العقيدات المجاورة للجنبة - العقيدات الملتصقة بجدار الرئة، والتي تشتهر بصعوبة فصلها بواسطة الخوارزميات التقليدية.

تطبيق الإطار:

الفكرة الأساسية: يجب أن يتعلم المُمَيِّز الخصومي أن قناع الرئة الواقعي له حد جنبي أملس ومستمر. التجزئة التي تقطع عن طريق الخطأ عقيدة مجاورة للجنبة تخلق تقعرًا غير طبيعي في هذا الحد، والذي يمكن للمُمَيِّز أن يضعه علامة على أنه "مزيف".
التدفق المنطقي: الإدخال: شريحة تصوير مقطعي محوسب بعقيدة دقيقة ملتصقة بالجدار. قد يقلل U-Net من تقديرها بسبب تدرجات الحافة الضعيفة. مُوَلِّد GAN، الذي يعاقبه المُمَيِّز لإنتاج محيط رئوي "غير تشريحي"، يتم تحفيزه لتضمين العقيدة للحفاظ على نعومة الحدود.
نقاط القوة والعيوب: القوة: إمكانية حساسية متفوقة لهذه العقيدات المحددة. العيب: خطر الخطأ المعاكس - قد "يهيئ" المُوَلِّد ويسوي شقًا حقيقيًا أو انبعاجًا، ويربط بشكل غير صحيح عقيدة بنسيج الرئة.
رؤية قابلة للتنفيذ: للتخفيف من العيب، يمكن للمرء أن يشرط المُمَيِّز ليس فقط على القناع، ولكن أيضًا على خريطة الحواف لصورة الإدخال، لربط "الواقعية" بميزات الصورة منخفضة المستوى. يجب أن يتضمن التقييم تحليلًا محددًا لمجموعة فرعية من "العقيدات المجاورة للجنبة" في النتائج.

7. التطبيقات المستقبلية واتجاهات البحث

يفتح نموذج التجزئة القائم على GAN عدة مسارات واعدة:

التجزئة متعددة الوسائط: توسيع الإطار للترجمة بين وسائط التصوير المختلفة (مثل التصوير المقطعي المحوسب إلى التصوير المقطعي بالإصدار البوزيتروني PET) أثناء إجراء التجزئة، والاستفادة من الميزات التشريحية المشتركة.
التعلم غير الخاضع للإشراف وشبه الخاضع للإشراف: استخدام أطر عمل مثل CycleGAN للتجزئة في سيناريوهات حيث تكون بيانات الصور والأقنعة المقترنة نادرة، ولكن الصور غير الموسومة وفيرة.
التجزئة الحجمية ثلاثية الأبعاد (3D): الانتقال من الشرائح ثنائية الأبعاد إلى الأحجام ثلاثية الأبعاد باستخدام بنى مثل 3D Pix2Pix أو Vox2Vox، لالتقاط السياق المكاني الحاسم لتجزئة فصوص الرئة وشجرة الأوعية الدموية.
التجزئة المشتركة وتصنيف الأمراض: تدريب GAN شرطي واحد لتجزئة الرئة وتوليد خريطة احتمالية للآفة، كما تم استكشافه في الأعمال الحديثة حول "GANs التشخيصية".
التعلم الموحد للرعاية الصحية: تطوير بروتوكولات تدريب GAN تحافظ على خصوصية المريض من خلال التعلم من بيانات المستشفيات اللامركزية دون مشاركة الصور الخام، وهو عائق رئيسي في الذكاء الاصطناعي الطبي.
التكامل مع نماذج الانتشار: استكشاف الجيل التالي من النماذج التوليدية، نماذج الانتشار، التي تقدم تدريبًا أكثر استقرارًا ومخرجات ذات جودة أعلى محتملة للتجزئة التشريحية التفصيلية.

8. المراجع

Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems (NeurIPS).
Isola, P., Zhu, J.-Y., Zhou, T., & Efros, A. A. (2017). Image-to-Image Translation with Conditional Adversarial Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI).
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
Isensee, F., Jaeger, P. F., Kohl, S. A., Petersen, J., & Maier-Hein, K. H. (2021). nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation. Nature Methods.
Litjens, G., et al. (2017). A survey on deep learning in medical image analysis. Medical Image Analysis.
National Cancer Institute. The Cancer Imaging Archive (TCIA). https://www.cancerimagingarchive.net/ (Datasets like LIDC-IDRI).