Pemodelan Topik Jurnal Informatika Menggunakan Bag of Words dan Latent Dirichlet Allocation

Authors

  • Verrino Adityya Universitas Multi Data Palembang
  • Ivander Destian Luis Universitas Multi Data Palembang
  • Abdul Rahman Universitas Multi Data Palembang
  • Hafiz Irsyad Universitas Multi Data Palembang

DOI:

https://doi.org/10.32493/jicomisc.v3i2.49672

Keywords:

bag of words, latent dirichlet allocation, pemodelan, semantik, natural language processing

Abstract

Penyebaran jurnal penelitian secara online, khususnya jurnal informatika, seringkali menyajikan topik yang mirip dan berubah sangat cepat, sehingga menyulitkan pembaca memahami konteks jurnal secara utuh. Pemodelan topik menjadi penting untuk mengelompokkan jurnal berdasarkan kemiripan konteks secara semantik, sehingga jurnal menjadi terstruktur dan mudah dipahami sebab-akibatnya. Penelitian ini bertujuan untuk memodelkan topik jurnal dari yang dikumpulkan dari sumber, seperti UMDP dan UIGM. menggunakan Bag of Words (BoW) untuk ekstraksi fitur dan Latent Dirichlet Allocation (LDA) untuk pemodelan topiknya. Data konten jurnal informatika dikumpulkan dari beberapa sumber jurnal informatika dan melalui tahap preprocessing meliputi, penghapusan kalimat dan kata unik, tokenisasi, penghapusan stop words, dan stemming. Setiap token akan dibentuk menjadi unigram dan bigram dan diberi pembobotan dengan BoW. Evaluasi dilakukan dengan mengukur nilai koherensi untuk rentang jumlah topik 2 hingga 10. Hasil penelitian menunjukkan bahwa model LDA mampu mengidentifikasi 4 topik optimal dengan nilai koherensi sebesar 52.1%. Penelitian ini menunjukkan bahwa kombinasi BoW dan LDA efektif untuk menemukan maksud tersembunyi dari setiap topik jurnal informatika secara semantik.

References

S. Aryana, A. Y. Wijayanti, and N. Haryati, “P2M STKIP Siliwangi Analisis Trend Topik Penelitian Pendidikan dan Pengajaran pada Jurnal Internasional Bereputasi Q1 Periode 2020-2021,” 2022. [Online]. Available: https://www.scimagojr.com.

M. Erreza, A. Mustika Rizki, U. Pembangunan Nasional, and J. Timur, “Pencarian Topik Penelitian Pada Studi Kasus Jurnal JIFTI Menggunakan Teknik Hiearchical Dirichlet Processes,” vol. 16, pp. 170–182, 2024, [Online]. Available: https://jifti.upnjatim.ac.id/index.php/jifti/issue/archive.

Anisatuzzumara, “FINAL PROJECT LATENT DIRICHLET ALLOCATION (LDA) AND K-NEAREST,” Semarang, 2024. Accessed: Jun. 03, 2025. [Online]. Available: http://repository.unissula.ac.id/id/eprint/34043.

E. Puspita, D. F. Shiddieq, and F. F. Roji, “Pemodelan Topik pada Media Berita Online Menggunakan Latent Dirichlet Allocation (Studi Kasus Merek Somethinc),” MALCOM: Indonesian Journal of Machine Learning and Computer Science, vol. 4, no. 2, pp. 481–489, Feb. 2024, doi: 10.57152/malcom.v4i2.1204.

Y. Matira and I. Setiawan, “Pemodelan Topik pada Judul Berita Online Detikcom Menggunakan Latent Dirichlet Allocation,” Estimasi: Journal of Statistics and Its Application, vol. 4, no. 1, pp. 2721–379, 2023, doi: 10.20956/ejsa.vi.24843.

W. Wiranto and Mila Rosyida Uswatunnisa, “Topic Modeling for Support Ticket using Latent Dirichlet Allocation,” Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), vol. 6, no. 6, pp. 998–1005, Dec. 2022, doi: 10.29207/resti.v6i6.4542.

S. Zhou, P. Kan, Q. Huang, and J. Silbernagel, “A guided latent Dirichlet allocation approach to investigate real-time latent topics of Twitter data during Hurricane Laura,” Journal of Information Science, vol. 49, no. 2, pp. 465–479, Apr. 2023, doi: 10.1177/01655515211007724.

S. Khoirunnisa, F. Nurdin, F. Sains, and D. Teknologi, “Analisa Pemodelan Topik Berita Daring Menggunakan Semi-supervised Dan Fully Unsupervised Latent Dirichlet Allocation Program Studi Matematika,” 2023.

C. Naury, D. H. Fudholi, and A. F. Hidayatullah, “Topic Modelling pada Sentimen Terhadap Headline Berita Online Berbahasa Indonesia Menggunakan LDA dan LSTM,” JURNAL MEDIA INFORMATIKA BUDIDARMA, vol. 5, no. 1, p. 24, Jan. 2021, doi: 10.30865/mib.v5i1.2556.

B. Subeno, “Topic Modelling Latent Dirichlet Allocation untuk Klasifikasi Komentar Kuliah Pada Twitter X,” 2024. [Online]. Available: https://x.com.

B. Hamdani,“Sistem Peringkasan Teks Berita Berbahasa Indonesia Menggunakan Latent Dirichlet Allocation Dan Maximum Marginal Relevance Skripsi“, 2024 Program Studi Teknik Informatika Fakultas Sains Dan Teknologi Universitas Islam Negeri Maulana Malik Ibrahim Malang.

B. Paula, M. Fawzan, and H. Irsyad, “Analisis Sentiment Masyarakat Terhadap penyebaran Starlink di Indonesia Menggunakan Algoritma Naive Bayes,” Journal Information & Computer JICOM, vol. 02, no. 2, 2024.

N. Nasser, L. Karim, A. el Ouadrhiri, A. Ali, and N. Khan, “n-Gram based language processing using Twitter dataset to identify COVID-19 patients,” Sustainable Cities and Society, vol. 72, Sep. 2021, doi: 10.1016/j.scs.2021.103048.

G. Muppala and T. Devi, “Accurate Recasting of Giant Text into Charts Using Rapid Automatic Keyword Extraction Algorithm in Comparison with Bag of Words Algorithm,” in Proceedings of International Conference on Contemporary Computing and Informatics, IC3I 2023, Institute of Electrical and Electronics Engineers Inc., 2023, pp. 2548–2552. doi: 10.1109/IC3I59117.2023.10397804.

A. Farkhod, A. Abdusalomov, F. Makhmudov, and Y. I. Cho, “Lda-based topic modeling sentiment analysis using topic/document/sentence (Tds) model,” Applied Sciences (Switzerland), vol. 11, no. 23, Dec. 2021, doi: 10.3390/app112311091.

Downloads

Published

31.07.2025