Art Original
Klasifikasi Cyber Harassment Pada Media Sosial Twitter Menggunakan Metode Logistic Regression
Cyber Harassment (pelecehan online) didefinisikan sebagai perilaku yang disengaja dan berulang dengan memanfaatkan teknologi seperti media sosial, termasuk Twitter. Twitter merupakan salah satu media sosial yang banyak digunakan di Indonesia. Akan tetapi, masih banyak orang yang salah dalam memanfaatkannya, sehingga kasus Cyber Harassment terjadi di media sosial Twitter. Penelitian ini bertujuan untuk membandingkan performa model dalam mengklasifikasikan jenis-jenis Cyber Harassment pada media sosial Twitter dengan metode Logistic Regression yang dibandingkan dengan metode K-Nearest Neighbor (KNN) dan Naïve Bayes. Data diambil dari berbagai tweet yang mengandung unsur Cyber Harassment. Data yang digunakan pada penelitian ini sebanyak 2500 data tweet berbahasa Indonesia yang dikumpulkan menggunakan Tweet-Harvest. Jenis-jenis Cyber Harassment terdiri dari Physical Threats, Purposeful Embarrassment, Racist, Sexual Harassment, dan Neutral. Berdasarkan hasil penelitian, tingkat keberhasilan klasifikasi Cyber Harassment pada media sosial Twitter menggunakan K-fold Cross Validation dengan metode Logistic Regression mendapat hasil akurasi sebesar 83%, precision 82%, recall 83% dan f1- score 82%. Dengan metode KNN mendapat hasil akurasi sebesar 76%, precision 76%, recall 76% dan f1-score 76%, sedangkan dengan metode Naïve Bayes mendapat hasil akurasi sebesar 79%, precision 78%, recall 79% dan f1-score 78%. Hasil penelitian menunjukkan bahwa performa model terbaik untuk mengklasifikasikan jenis-jenis Cyber Harassment pada penelitian ini adalah dengan metode Logistic Regression karena menghasilkan nilai akurasi, precision, recall dan f1-score tertinggi.
No other version available