PERBANDINGAN UKURAN JARAK PADA ALGORITMA K-NEAREST NEIGHBOR DALAM ANALISIS SENTIMEN

Authors

  • Alfiari Firdaus Program Studi Statistika, FMIPA, Universitas Islam Bandung
  • Dwi Agustin Nuriani Sirodj Program Studi Statistika, FMIPA, Universitas Islam Bandung

DOI:

https://doi.org/10.32493/sm.v4i2.27059

Keywords:

KNN, euclidean, minkowski, manhattan, linear least square

Abstract

K-Nearest Neighbor (KNN) merupakan salah satu algoritma klasifikasi yang paling banyak digunakan dalam metode machine learning. Klasifikasi KNN merupakan metode klasifikasi non-parametrik konvensional yang telah digunakan sebagai pengklasifikasi dasar dalam banyak masalah klasifikasi pola. Teknik pencarian KNN yang digunakan dalam penelitian ini dengan menggunakan rumus jarak euclidean, minkowski, manhattan dan linear least square. Keuntungan dari metode ini adalah efektif terhadap data noise dan efektif ketika data training berukuran besar. Namun metode ini masih memiliki kekurangan yaitu masalah tingkat akurasi metode yang digunakan untuk mengukur kemiripan antar objek yang dibandingkan. Tujuan dari penelitian ini adalah untuk mengetahui ukuran jarak terbaik dalam metode KNN pada analisis sentimen. Data yang digunakan adalah data tweet sebanyak 12.951 yang diambil dari twitter dengan menggunakan hastag #OmicronVariant dan #Covid19. Hasil penelitian menunjukkan bahwa parameter nilai k terbaik adalah 15 sedangkan jarak terbaik adalah jarak euclidean yang diukur melalui nilai akurasi, recall, dan presisi yang baik, kemudian hasil prediksi diperoleh nilai kategori positif lebih tinggi dibandingkan nilai kategori netral dan nilai kategori negatif. Dapat disimpulkan bahwa persepsi masyarakat terhadap Covid-19 Omicron adalah positif, artinya mereka percaya dengan adanya virus covid-19 jenis omicron.

References

Alasadi, S. A., & Bhaya, W. S. (2017). Review of Data Preprocessing Techniques in Data Mining. Journal of Engineering and Applied Sciences, 12(16), 4102–4107. https://doi.org/10.3923/jeasci.2017.4102.4107

Batchelor, B. G. (1978). Pattern Recognition Ideas in Practice (1st ed. 19). New York, NY : Springer US : Imprint: Springer.

Jain, A. K., Duin, R. P., & Mao, J. (2000). Statistical Pattern Recognition: A Review. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(1), 4–37. https://doi.org/10.1109/34.824819

Manning, C. D., Raghavan, P., & Schutze, H. (2009). An Introduction to Modern Information Retrieval. In Cambridge University Press (Online Edi, Vol. 53, Issue 9). Cambridge University Press. https://doi.org/10.1108/00242530410565256

Mohamed, A. E. (2017). Comparative Study of Machine Learning Techniques for Supervised Classification of Biomedical Data. International Journal of Applied Science and Technology, 7(2), 5–18. https://doi.org/10.15546/aeei-2014-0021

Pozzi, F. A., Fersini, E., Messina, E., & Liu, B. (2016). Sentiment Analysis in Social Networks (F. A. Pozzi, E. Fersini, E. Messina, & B. Liu, Eds.; 1st editon, pp. 1–284). Morgan Kaufmann. https://doi.org/10.1016/C2015-0-01864-0

Prakasa, O. S. Y., & Lhaksmana, K. M. (2018). Klasifikasi Teks Dengan Menggunakan Algoritma K-nearest Neighbor Pada Kasus Kinerja Pemerintah Di Twitter. EProceedings of Engineering, 5(3), 8237–8248.

Rajput, D. S., Thakur, R. S., & Basha, S. M. (2018). Sentiment Analysis and Knowledge Discovery in Contemporary Business (D. S. Rajput, R. S. Thakur, & S. M. Basha, Eds.; pp. 1–333). IGI Global. https://doi.org/10.4018/978-1-5225-4999-4

Singh, J., Singh, G., & Singh, R. (2016). A review of sentiment analysis techniques for opinionated web text. CSI Transactions on ICT, 4(2–4), 241–247. https://doi.org/10.1007/s40012-016-0107-y

Syahnur, M. H., Bijaksana, M. A., & Mubarok, M. S. (2016). Kategorisasi Topik Tweet di Kota Jakarta, Bandung, dan Makassar dengan Metode Multinomial Naïve Bayes Classifier. E-Proceeding of Engineering, 3(2), 3612–3620.

Downloads

Published

2022-07-31

Issue

Section

Articles