Evaluasi Komparatif Swin Transformer dan MedViT untuk Klasifikasi Citra Kanker Kandung Kemih

Authors

  • Suryatna Sacadibrata Teknik Informatika S-2, Program Pascasarjana, Universitas Pamulang, Kota Tangerang Selatan, Banten
  • Sajarwo Anggai Teknik Informatika S-2, Program Pascasarjana, Universitas Pamulang, Kota Tangerang Selatan, Banten
  • Arya Adyhaksa Waskita Teknik Informatika S-2, Program Pascasarjana, Universitas Pamulang, Kota Tangerang Selatan, Banten
  • Tukiyat Teknik Informatika S-2, Program Pascasarjana, Universitas Pamulang, Kota Tangerang Selatan, Banten

Keywords:

Kanker Kandung Kemih, Klasifikasi Citra Medis, MedViT, Swin Transformer, Vision Transformer

Abstract

Kanker kandung kemih merupakan salah satu kanker urologi dengan tingkat kejadian dan kekambuhan yang tinggi, sehingga memerlukan metode deteksi dini yang akurat dan stabil untuk mendukung pengambilan keputusan klinis. Perkembangan model deep learning berbasis transformer membuka peluang untuk meningkatkan akurasi klasifikasi citra medis. Penelitian ini bertujuan membandingkan kinerja dua arsitektur vision transformer, yaitu MedViT dan Swin Transformer, dalam mengklasifikasikan citra kanker kandung kemih ke dalam empat kelas: High-Grade Carcinoma (HGC), Low-Grade Carcinoma (LGC), Non-Specific Tumor (NST), dan Non-Tumor Lesion (NTL). Dataset citra diperoleh dari platform Kaggle pada bulan Juli 2024 dan terdiri atas 1.754 gambar, masing-masing HGC=469, LGC=647, NST=504, dan NTL=134 gambar. Dataset dibagi menjadi data latih, validasi, dan uji dengan rasio 70:15:15 menggunakan pembagian acak terkontrol. Proses preprocessing meliputi resizing, normalisasi piksel, serta augmentasi untuk meningkatkan generalisasi model. Evaluasi model menggunakan akurasi, precision, recall, F1-score, confusion matrix, dan ROC-AUC. Hasil eksperimen menunjukkan bahwa MedViT mencapai akurasi data uji sebesar 95,49% dengan rata-rata ROC-AUC 0,97, sedangkan Swin Transformer memperoleh performa lebih tinggi dengan akurasi 98,87% dan ROC-AUC sempurna sebesar 1,00 pada seluruh kelas. Selain itu, Swin Transformer menunjukkan stabilitas training yang lebih baik dibandingkan MedViT, terutama pada kelas minoritas. Berdasarkan temuan ini dapat disimpulkan bahwa Swin Transformer memiliki potensi lebih unggul untuk diterapkan pada sistem klasifikasi kanker kandung kemih, meskipun MedViT tetap menawarkan efisiensi perhitungan dan kemampuan integrasi fitur lokal- global

References

[1] R. Shadab, R. B. Nerli, S. R. Bidi, and S. C. Ghagane, “Risk Factors for Bladder Cancer: Results of a Survey of Hospital Patients,” J Cancer Allied Spec, vol. 8, no. 2, p. 4, 2022, doi: 10.37029/jcas.

[2] L. Lutviana, Rian Ardianto, and Purwono, “CNN-based Classification of Bladder Tissue Lesions from Endoscopy Images,” IT Journal Research and Development, vol. 9, no. 2, pp. 95–107, Mar. 2025, doi: 10.25299/itjrd.2025.17867.

[3] A. Lopez-Beltran, M. S. Cookson, B. J. Guercio, and L. Cheng, “Advances in diagnosis and treatment of bladder cancer,”

BMJ, Feb. 2024, doi: 10.1136/bmj-2023-076743.

[4] S. Alouini, “Risk Factors Associated with Urothelial Bladder Cancer,” Int J Environ Res Public Health, vol. 21, no. 7, pp. 1–12, Jul. 2024, doi: 10.3390/ijerph21070954.

[5] S. H. Lee, S. Lee, and B. C. Song, “Vision Transformer for Small-Size Datasets,” Computer Vision and Pattern Recognition, Dec. 2021, doi: https://doi.org/10.48550/arXiv.2112.13492.

[6] E. U. Henry, O. Emebo, and C. A. Omonhinmin, “Vision Transformers in Medical Imaging: A Review,” Computer Vision and Pattern Recognition, Nov. 2022, doi: https://doi.org/10.48550/arXiv.2211.10043.

[7] Z. Liu et al., “Swin Transformer: Hierarchical Vision Transformer using Shifted Windows,” Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 10012–10022, 2021, Accessed: Dec. 14, 2025. [Online]. Available: https://openaccess.thecvf.com/content/ICCV2021/papers/Liu_Swin_Transformer_Hierarchical_Vision_Transformer_Usi ng_Shifted_Windows_ICCV_2021_paper.pdf

[8] Z. Liu et al., “Swin Transformer V2: Scaling Up Capacity and Resolution,” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 12009–12019, 2022, Accessed: Dec. 14, 2025. [Online]. Available: https://openaccess.thecvf.com/content/CVPR2022/papers/Liu_Swin_Transformer_V2_Scaling_Up_Capacity_and_Resol ution_CVPR_2022_paper.pdf

[9] J. Huang et al., “Swin transformer for fast MRI,” Neurocomputing, vol. 493, pp. 281–304, Jul. 2022, doi: 10.1016/j.neucom.2022.04.051.

[10] Z. Xie et al., “Self-Supervised Learning with Swin Transformers,” Computer Vision and Pattern Recognition, May 2021, doi: https://doi.org/10.48550/arXiv.2105.04553.

[11] Y. Liu, “Medical Image Classification Based on Transformer Model and Ordinal Loss,” in Proceedings ofthe 1st International Conference on Engineering Management, Information Technology and Intelligence (EMITI 2024, INSTICC, Sep. 2024, pp. 708–713. doi: 10.5220/0012969200004508.

[12] R. Karim, H. Zhao, R. P. Wildes, and M. Siam, “MED-VT: Multiscale Encoder-Decoder Video Transformer with Application to Object Segmentation,” Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pp. 6323–6333, 2023.

[13] V. Liyanage, M. Tao, J. S. Park, K. N. Wang, and S. Azimi, “Malignant and non-malignant oral lesions classification and diagnosis with deep neural networks,” J Dent, vol. 137, Oct. 2023, doi: 10.1016/j.jdent.2023.104657.

Downloads

Published

2026-02-10

How to Cite

Suryatna Sacadibrata, Sajarwo Anggai, Waskita, A. A., & Tukiyat. (2026). Evaluasi Komparatif Swin Transformer dan MedViT untuk Klasifikasi Citra Kanker Kandung Kemih. Prosiding Seminar Kecerdasan Artifisial, Sains Data, Dan Pendidikan Masa Depan, 4(1), 13–28. Retrieved from https://openjournal.unpam.ac.id/index.php/PROKASDADIK/article/view/58493