Penggunaan data skala besar (big data) menunjukkan kecenderungan yang meningkat dengan didukung oleh kemajuan teknologi komputasi digital dan perangkat lunak sumber terbuka (open source) seperti python, R studio. Sejumlah lembaga internasional juga menyediakan data sumber terbuka termasuk data penyakit seperti Covid 19. Dengan kemudahan tersebut banyak para peneliti yang terbantu dalam memperoleh data skala besar dan perangkat lunak sumber terbuka mana kala data penelitian terbatas sedangkan para peneliti yang berfungsi sebagai dosen dituntut untuk mempublikasikan artikel sebagai wujud kinerja dosen.
Model statistik sebagai sarana untuk menjelaskan dan memprediksi suatu peristiwa kesehatan seperti Covid 19 mempunyai posisi penting dalam mendukung para pemangku kepentingan bidang kesehatan untuk pengambilan keputusan kesehatan. Untuk itu pemilihan model statistik yang sesuai menjadi penting terutama bila digunakan untuk memprediksi peristiwa kesehatan yang akan terjadi kemudian. Salah satu model statistik prediktif yang terintegrasi ke dalam pembelajaran mendalam (deep learning) adalah model K-Tetangga Terdekat (K- nearest neighbours model) selanjutnya disingkat KNN. Model ini banyak digunakan untuk prediksi dengan menggunakan data skala besar. Untuk mengevaluasi kinerja model ini, perlu dilakukan validasi silang untuk menentukan keakuratan model dalam memprediksi suatu peristiwa kesehatan seperti Covid 19.
Algoritma model KNN pertama kali dikembangkan oleh Fix E dan Hodges JL [3]. Dalam statistika, model ini termasuk metode klasifikasi(classification) non-parametrik. Kemudian Cover T dan Hart P [4] memperluas metode ini digunakan untuk klasifikasi dan regresi. Dalam kedua metode tersebut, sebagai masukan(input) adalah contoh pelatihan(training) K-terdekat dalam kumpulan data(dataset). Keluaran(output) atau target tergantung pada apakah KNN digunakan untuk klasifikasi atau regresi. Selain itu, dalam klasifikasi KNN, sebagai keluaran adalah keanggotaan kelas(class membership) dimana obyek masuk dalam kelas tertentu(kasus Covid 19 akan hidup), sedangkan obyek lain masuk dalam kelas lainnya(kasus Covid 19 akan meninggal).
Prediksi dapat dilakukan berdasarkan pada situasi saat ini dan apa yang dialami di masa lalu. Bila kelas kategorik, yang kita sebut sebagai label, diprediksi oleh sejumlah variabel, yang kita sebut sebagai fitur, maka kita berhadapan dengan masalah klasifikasi. Selanjutnya pengamatan dialokasikan oleh pengklasifikasi(classifier) dengan kelas yang tidak diketahui ke kelas berdasarkan kemiripan ke pengamatan lain yang sudah diketahui kelasnya. Kemudian pengamatan yang telah diketahui kelasnya digunakan sebagai dasar untuk prediksi. Pengamatan ini disebut dataset pelatihan. Kita menggunakan dataset ini untuk melatih atau mengajar 3 pengklasifikasi yang telah kita tentukan. Lebih lanjut pengklasifikasi digunakan untuk prediksi data baru yang tidak diketahui kelasnya.
Suatu obyek diklasifikasikan berdasarkan pilihan pluralitas tetangganya, dengan obyek tersebut adalah dialokasikan ke kelas yang paling umum di antara KNN-nya (K adalah bilangan bulat positif, biasanya kecil). Jika K = 1, maka obyek tersebut hanya dialokasikan ke kelas itu satu tetangga terdekat. Selanjutnya, dalam regresi KNN, keluarannya adalah nilai properti untuk objek. Nilai tersebut merupakan rata-rata dari nilai KNN.
Algoritma klasifikasi diperlukan untuk prediksi bagi pengamatan baru. Dengan demikian kita menggunakan algoritma klasifikasi KNN. Dengan algoritma ini kita hendak memperoleh K pengamatan paling dekat atau K pengamatan yang paling mirip dalam dataset pelatihan kita. Kemudian hasil digunakan untuk prediksi pengamatan baru[5]. Kedekatan diukur dengan jarak Euclidean, KNN untuk pengamatan baru diperoleh dengan menghitung jarak dari pengamatan baru ke masing-masing pengamatan dalam dataset pelatihan, Selanjutnya kita pilih K pengamatan yang mempunyai nilai jarak paling kecil.
Pendekatan algoritma pembelajaran mendalam (deep learning) dengan menampilkan model KNN untuk data berskala besar menjadi penting dimanfaatkan mana kala pendekatan statistika klasik tidak memungkinkan. Kinerja dari algoritma pembelajaran mendalam dengan menampilkan model KNN perlu dievaluasi dengan validasi silang dengan menampilkan ukuran akurasi, presisi, recall, dan skor F1. Model KNN menunjukkan kinerja yang lebih baik dalam memprediksi kasus Covid 19 akan hidup dari pada dalam memprediksi kasus Covid 19 akan meninggal. Akurasi untuk ukuran kelompok(K) di bawah 6 cenderung menurun secara tajam, sementara akurasi untuk ukuran kelompok (K) di atas 6 cenderung meningkat secara bertahap namun tidak pernah memampaui 42%.
Penulis: Prof Kuntoro, dr, MPH, DrPH
Link Jurnal: K-Nearest Neighbours and K-Fold Cross Validation for Big Data of Covid 19





