Uchambuzi wa Kiufundi wa Kutenganisha Picha za Mapafu Kwa Kutumia Mitandao ya Kuzalisha ya Kupingana (GANs)

1. Utangulizi

Kutenganisha picha za mapafu ni hatua muhimu ya awali ya usindikaji katika mifumo ya utambuzi unaosaidiwa na kompyuta (CAD) kwa magonjwa ya mapafu, kama vile saratani ya mapafu, KOPD, na COVID-19. Kutenganisha kwa usahihi maeneo ya mapafu na vijidudu vya mapafu kutoka kwa picha za CT au X-ray ni muhimu kwa uchambuzi wa kiasi, ufuatiliaji wa magonjwa, na upangaji wa matibabu. Njia za jadi za kutenganisha, zikiwemo kutumia kizingiti, ukuaji wa eneo, na seti za viwango, mara nyingi zinakabiliana na changamoto za asili za picha za matibabu: kelele, tofauti ndogo ya rangi, na utofauti wa kimuundo.

Makala haya yanapendekeza njia mpya kwa kuweka kazi ya kutenganisha kama tatizo la kutafsiri picha-hadi-picha kwa kutumia Mitandao ya Kuzalisha ya Kupingana (GANs). Hasa, inatumia muundo wa Pix2Pix kutafsiri picha ya mapafu ya awali hadi kwenye barakoa yake inayolingana ya kutenganisha. Mabadiliko haya ya mfano kutoka kwa uainishaji wa kila pikseli hadi uzalishaji wa picha wenye masharti unalenga kutoa matokeo ya kutenganisha yanayofanana zaidi na yenye maelezo, hasa kwa kesi zenye changamoto kama vile vijidudu vidogo au vilivyofichika.

2. Mbinu

Mbinu kuu inahusisha kutumia mfumo wa GAN wenye masharti kujifunza uchoraji ramani kutoka kwa picha ya mapafu ya pembejeo hadi kwenye ramani ya kutenganisha ya pato.

2.1 Mitandao ya Kuzalisha ya Kupingana (GAN)

GAN inajumuisha mitandao miwili ya neva, Kizalishi ($G$) na Kichambuzi ($D$), zilizofunzwa wakati mmoja katika mchezo wa minimax. Kizalishi hujifunza kutoa sampuli za data zinazofanana na ukweli kutoka kwa vekta ya kelele au, katika GAN zenye masharti, kutoka kwa picha ya pembejeo. Kichambuzi hujifunza kutofautisha kati ya sampuli za kweli (barakoa za kutenganisha za ukweli wa ardhi) na sampuli bandia (barakoa zilizozalishwa). Kazi ya lengo kwa GAN ya kawaida ni:

$\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{data}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]$

Ambapo $x$ ni data ya kweli na $z$ ni kelele ya pembejeo. Katika mazingira ya masharti (cGAN), $G$ na $D$ zote hupokea maelezo ya ziada, kama vile picha ya pembejeo.

2.2 Pix2Pix kwa Tafsiri ya Picha

Makala yanatumia modeli ya Pix2Pix, muundo wa kihistoria wa cGAN ulioanzishwa na Isola et al. (2017). Pix2Pix hutumia kizalishi cha msingi wa U-Net kwa uelekezaji sahihi na kichambuzi cha PatchGAN kinachotambua vipande vya picha vya ndani kuwa vya kweli au bandia, kikihimiza maelezo ya masafa ya juu. Kazi ya hasara inachanganya hasara ya kupingana ya GAN ya kawaida na hasara ya ujenzi wa L1:

$\mathcal{L}_{cGAN}(G, D) = \mathbb{E}_{x,y}[\log D(x, y)] + \mathbb{E}_{x,z}[\log(1 - D(x, G(x, z)))]$

$\mathcal{L}_{L1}(G) = \mathbb{E}_{x,y,z}[\|y - G(x, z)\|_1]$

$G^* = \arg \min_G \max_D \mathcal{L}_{cGAN}(G, D) + \lambda \mathcal{L}_{L1}(G)$

Hapa, $x$ ni picha ya mapafu ya pembejeo, $y$ ni barakoa lengwa ya kutenganisha, $z$ ni kelele, na $\lambda$ inadhibiti uzito wa hasara ya L1.

2.3 Matumizi kwa Kutenganisha Picha za Mapafu

Katika muktadha huu, pembejeo $x$ ni kipande cha CT cha mapafu cha kiwango cha kijivu. Lengo $y$ ni barakoa ya binary ambapo pikseli zinazomilikiwa na parenchyma ya mapafu (na uwezekano wa vijidudu) zimewekwa alama. Kizalishi $G$ hujifunza uchoraji ramani $G: x \rightarrow y$. Mafunzo ya kupingana yanalazimisha $G$ kutoa barakoa ambazo sio tu sahihi kwa kila pikseli (kupitia hasara ya L1) lakini pia zinazowezekana kimuundo na zisizoweza kutofautishwa na barakoa za kweli (kupitia kichambuzi).

3. Maelezo ya Kiufundi & Mfumo wa Hisabati

Mafanikio hutegemea uwezo wa kizalishi cha U-Net kukamata muktadha na uelekezaji sahihi kupitia muundo wake wa koda-kichwa na viunganisho vya kuruka. Mwelekeo wa kichambuzi cha PatchGAN kwenye muundo wa ndani huzuia kizalishi kutengeneza matokeo yasiyo wazi yanayojulikana na hasara safi ya L1/L2. Kazi ya hasara iliyochanganywa ni muhimu:

Hasara ya Kupingana ($\mathcal{L}_{cGAN}$): Inahakikisha ukweli wa kimuundo wa ulimwengu wa barakoa iliyozalishwa.
Hasara ya L1 ($\mathcal{L}_{L1}$): Inalazimisha usahihi wa masafa ya chini, ikihakikisha barakoa inalingana na ukweli wa ardhi kwa kiwango cha pikseli.

Mchakato wa mafunzo kwa asili hauna utulivu, unahitaji urekebishaji makini wa vigezo vya juu, urekebishaji wa kawaida wa kundi, na mbinu kama vile urekebishaji wa kawaida wa mfano kuzuia mgawanyiko wa hali.

4. Matokeo ya Majaribio & Uchambuzi

Makala yanaripoti kupima njia iliyopendekwa ya msingi wa Pix2Pix kwenye seti ya data ya picha ya mapafu ya kweli. Ingawa maelezo maalum ya seti ya data (k.m., LIDC-IDRI, LUNA16) na vipimo vya kiasi (k.m., Mgawo wa Dice, Fahirisi ya Jaccard, Uthibitishaji) hayajaelezwa kwa kina katika dondoo iliyotolewa, waandishi wanadai njia hiyo ni "yenye ufanisi na inazidi njia ya kisasa."

Matokeo Yanayodokezwa & Maelezo ya Chati: Sehemu ya kawaida ya matokeo kwa kazi kama hii ingejumuisha:

Ulinganisho wa Ubora: Uonyeshaji wa kuona wa pande kwa pande wa vipande vya CT vya pembejeo, barakoa za ukweli wa ardhi, na utabiri kutoka kwa njia ya GAN iliyopendekwa dhidi ya viwango vya kulinganisha (k.m., U-Net, FCN). Pato la GAN lingaonyesha mipaka mikali zaidi karibu na sehemu za mapafu na ukamataji bora wa muundo wa vijidudu vidogo ikilinganishwa na matokeo ya CNN yanayoweza kuwa yasiyo wazi.
Jedwali la Vipimo vya Kiasi: Jedwali linalolinganisha Alama ya Dice, Usahihi, Ukumbusho, na Umbali wa Hausdorff kati ya njia tofauti. Njia ya msingi wa GAN ingeongoza jedwali, hasa kwenye vipimo vinavyohisi usahihi wa mpaka.
Uchambuzi wa Kesi ya Kushindwa: Majadiliano ya mipaka, kama vile kupungua kwa utendaji kwenye picha zilizo na magonjwa makubwa (muunganiko mkubwa) au kelele kali, ambapo kizalishi kinaweza kubuni miundo isiyo sahihi.

5. Mfumo wa Uchambuzi: Ufahamu Msingi na Ukosoaji

Ufahamu Msingi: Pendekezo la msingi la makala haya ni la kushangaza lakini lina mantiki: tuchukue kutenganisha picha za matibabu sio kama kazi ya uainishaji, bali kama tatizo la kuhamisha mtindo. Ufahamu wa kweli sio tu kutumia GAN, bali kutambua kwamba barakoa ya kutenganisha ya hali ya juu ni toleo la "mtindo" la picha ya asili ambapo "mtindo" ni ukweli wa kimuundo. Uwekaji upya huu huruhusu modeli kutumia ujuzi wa awali wa uzalishaji wa picha uliojifunza kutoka kwa data, uwezekano wa kupita haja ya kazi za hasara zilizoundwa kwa mikono kwa laini ya mpaka au muunganisho.

Mtiririko wa Mantiki: Hoja inafanana. 1) Njia za jadi na za kujifunza kwa kina (U-Net) zina dosari zinazojulikana (mipaka isiyo wazi, utendaji duni kwenye vipengele vya hila). 2) GANs, hasa Pix2Pix, hufanya vizuri katika kujifunza nafasi za pato zilizoundwa na kuhifadhi maelezo mazuri. 3) Kwa hivyo, kutumia Pix2Pix kwenye picha za mapafu kunapaswa kutoa matenganisho bora, hasa kwa vijidudu vidogo vyenye changamoto. Mantiki ni sahihi, ingawa inadhania faida za mafunzo ya kupingana zinazidi utata wake.

Nguvu & Kasoro:
Nguvu: Njia hiyo ni nadharia nzuri. Hasara ya kupingana ni kipimo chenye nguvu cha kufanana kilichojifunza ambacho kinaweza kukamata uhusiano tata, usio wa ndani bora kuliko hasara za kila pikseli. Ina uwezo mkubwa wa kuzalisha matenganisho yanayowezekana kimuundo hata kwa pembejeo zisizo wazi, kama ilivyoelezwa katika kazi inayohusiana kama "CycleGAN: Unpaired Image-to-Image Translation" (Zhu et al., 2017) ambayo inaonyesha uwezo wa GANs kujifunza vipengele visivyobadilika katika nyanja.
Kasoro Muhimu: Makala, kama yalivyowasilishwa, yanakosa kina. Madai ya kuzidi njia za kisasa ni ya kushangaza lakini hayasaidiwi hapa na vipimo halisi au washindani walioitwa. GANs zinajulikana kuwa ngumu na zisizo na utulivu kufunza—zinahitaji data nyingi, urekebishaji makini, na rasilimali za kompyuta. Mchakato wa kufanya maamuzi wa modeli ni "sanduku nyeusi," ikileta wasiwasi mkubwa kwa utumizi wa kliniki ambapo ufafanuzi ni muhimu. Pia kuna hatari ya kizalishi "kuchora upya" miundo inayowezekana lakini isiyo sahihi katika kesi za ugonjwa mkali, suala linalojulikana na modeli za kuzalisha.

Ufahamu Unaoweza Kutekelezwa: Kwa watafiti: Msichukue hii kama suluhisho la kuziba na kucheza. Kazi ya kweli huanza baada ya kuchagua Pix2Pix. Lenga:

Hasara Mseto: Unganisha hasara maalum za kazi (k.m., hasara ya Dice) na hasara ya kupingana kwa mafunzo yenye utulivu zaidi na uboreshaji bora wa kipimo.
Uthibitishaji Mkali: Linganisha sio tu na njia za zamani lakini pia na viwango vya kisasa vikali kama nnU-Net (Isensee et al., 2021), kiwango cha sasa cha kweli katika kutenganisha matibabu.
Ufafanuzi: Tumia mbinu kama Grad-CAM au ramani za umakini kufasiri ni maeneo gani ya picha kichambuzi kinayolenga, kujenga imani.
Mradi wa Kliniki: Pita zaidi ya vipimo vya seti ya data hadi uthibitishaji wa ulimwengu wa kweli na madaktari wa picha, kupima wakati uliookolewa na makubaliano ya utambuzi.

Kwa watendaji: Mkaribie kwa matumaini makini. Mbinu hiyo ina ahadi kwa kazi ndogo kama vile kuboresha matenganisho mabaya au kushughulikia aina maalum zenye changamoto, lakini bado sio badala ya modeli thabiti, zinazoweza kufasiriwa kama U-Net katika mifumo ya uzalishaji.

6. Mfano wa Kesi ya Mfumo wa Uchambuzi

Hali: Kutathmini utendaji wa modeli ya GAN kwenye kutenganisha vijidudu vya karibu na ukuta wa mapafu—vijidudu vilivyounganishwa na ukuta wa mapafu, ambavyo vinajulikana kuwa vigumu kwa algoriti za jadi kuvitenganisha.

Matumizi ya Mfumo:

Ufahamu Msingi: Kichambuzi cha kupingana kinapaswa kujifunza kwamba barakoa ya mapafu inayofanana na ukweli ina mpaka laini, unaoendelea wa ukuta wa mapafu. Kutenganisha kunakokatisha kosa la vijidudu vya karibu na ukuta wa mapafu huunda ukanda usio wa asili katika mpaka huu, ambao kichambuzi kinaweza kuweka alama kama "bandia."
Mtiririko wa Mantiki: Pembejeo: Kipande cha CT chenye vijidudu vidogo vilivyounganishwa na ukuta. U-Net inaweza kuivunja chini kutokana na miteremko dhaifu ya ukingo. Kizalishi cha GAN, kilichopenzwa na kichambuzi kwa kutoa muundo wa mapafu "usio wa kimuundo," kinahimizwa kujumuisha vijidudu ili kuhifadhi laini ya mpaka.
Nguvu & Kasoro: Nguvu: Uwezekano wa uthibitishaji bora kwa vijidudu hivi maalum. Kasoro: Hatari ya kosa kinyume—kizalishi kinaweza "kubuni" na kulainisha mwanya wa kweli au ukanda, kuunganisha vibaya vijidudu kwenye parenchyma.
Ufahamu Unaoweza Kutekelezwa: Ili kupunguza kasoro, mtu anaweza kuweka masharti kichambuzi sio tu kwenye barakoa, bali pia kwenye ramani ya ukingo wa picha ya pembejeo, kuweka "ukweli" katika vipengele vya chini vya picha. Tathmini lazima ijumuishe uchambuzi maalum wa "kikundi kidogo cha vijidudu vya karibu na ukuta wa mapafu" katika matokeo.

7. Matumizi ya Baadaye & Mwelekeo wa Utafiti

Mfano wa kutenganisha wa msingi wa GAN unafungua njia kadhaa zenye matumaini:

Kutenganisha kwa Njia Nyingi: Kupanua mfumo kutafsiri kati ya aina tofauti za upigaji picha (k.m., CT hadi PET) wakati wa kutenganisha, kutumia vipengele vya kimuundo vilivyoshirikiwa.
Kujifunza bila Uelekezi & Kwa Uelekezi Kiasi: Kutumia mifumo kama CycleGAN kwa kutenganisha katika hali ambapo data ya picha na barakoa iliyolinganishwa ni chache, lakini picha zisizo na lebo ni nyingi.
Kutenganisha kwa Kiasi cha 3D: Kuhamia kutoka kwa vipande vya 2D hadi kiasi cha 3D kwa kutumia miundo kama 3D Pix2Pix au Vox2Vox, kukamata muktadha wa anga muhimu kwa kutenganisha sehemu za mapafu na miti ya mishipa.
Kutenganisha Pamoja & Uainishaji wa Magonjwa: Kufunza GAN moja yenye masharti kwa kutenganisha mapafu na kuzalisha ramani ya uwezekano wa vidonda, kama ilivyochunguzwa katika kazi za hivi karibuni kwenye "GANs za utambuzi."
Kujifunza kwa Shirikisho kwa Afya: Kukuza itifaki za mafunzo ya GAN zinazohifadhi faragha ya mgonjwa kwa kujifunza kutoka kwa data ya hospitali zisizo na kituo cha kati bila kushiriki picha za awali, kikwazo kikubwa katika AI ya matibabu.
Unganisho na Modeli za Uenezi: Kuchunguza kizazi kijacho cha modeli za kuzalisha, modeli za uenezi, ambazo hutoa mafunzo yenye utulivu zaidi na uwezekano wa matokeo ya hali ya juu zaidi kwa kutenganisha kwa kina cha kimuundo.

8. Marejeo

Goodfellow, I., et al. (2014). Generative Adversarial Nets. Advances in Neural Information Processing Systems (NeurIPS).
Isola, P., Zhu, J.-Y., Zhou, T., & Efros, A. A. (2017). Image-to-Image Translation with Conditional Adversarial Networks. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. International Conference on Medical Image Computing and Computer-Assisted Intervention (MICCAI).
Zhu, J.-Y., Park, T., Isola, P., & Efros, A. A. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. IEEE International Conference on Computer Vision (ICCV).
Isensee, F., Jaeger, P. F., Kohl, S. A., Petersen, J., & Maier-Hein, K. H. (2021). nnU-Net: a self-configuring method for deep learning-based biomedical image segmentation. Nature Methods.
Litjens, G., et al. (2017). A survey on deep learning in medical image analysis. Medical Image Analysis.
National Cancer Institute. The Cancer Imaging Archive (TCIA). https://www.cancerimagingarchive.net/ (Seti za data kama LIDC-IDRI).