Algoritma Naive Bayes Classifier Dan Chi Squared Statistic Untuk Analisis Sentiment Tweets Bahasa Indonesia dan Sunda
Abstract
Perkembangan dalam penggunaan media sosial saat ini terutama di Indonesia sangatlah pesat. Negara Indonesia merupakan negara dengan berbagai aneka ragam salah satunya bahasa daerah. Masyarakat Indonesia dalam komunikasi sehari-harinya selain menggunakan bahasa Indonesia, ada sebagian masyarakat terutama yang tinggal di daerah Jawa Barat masih menggunakan bahasa daerah yaitu bahasa Sunda untuk menyampaikan pendapat, komentar, saran maupun kritik dan lain-lain di media sosial. Data dari media sosial ini dapat digunakan untuk menggali informasi sehingga dapat digunakan untuk pengambilan keputusan baik bagi individu maupun organisasi. Jumlah data dari media sosial yang sangatlah besar membuat manusia tidak dapat menganalisisnya secara manual. Analisis sentimen ini merupakan suatu proses mengklasifikasikan, menganalisis, mengevaluasi, baik pendapat, komentar, saran maupun kritik dan lain-lain, terhadap objek tertentu seperti individu, organisasi, peristiwa, produk atau layanan, untuk mendapatkan informasi. Algoritma klasifikasi Naїve Bayes Classifier (NBC) dan metode pemilihan fitur Chi Squared Statistics digunakan dalam proses analisis sentiment pada tweets berbahasa Indonesia dan berbahasa Sunda di media sosial Twitter, dengan dikelompokan ke dalam kategori positif, negatif dan netral. Proses klasifikasi Naïve Bayes Classifier dan metode pemilihan fitur Chi Square Statistic dapat mengurangi fitur yang tidak relevan dalam proses klasifikasi pada tweets berbahasa Indonesia dan Sunda dengan akurasi sebesar 81,25%.
Kata kunci: Twitter, Analisis Sentiment, Berbahasa Indonesia dan Sunda, NaÑ—ve Bayes Classifier (NBC), Chi Squared Statistic