51¶¯Âþ

51¶¯Âþ Official Website

Implementasi Algoritma Naïve Bayes untuk Klasifikasi Kelayakan Air Minum Berdasarkan Parameter Kualitas Air

Ilustrasi AIP (Foto: UNAIR NEWS)
Ilustrasi AIP (Foto: UNAIR NEWS)

Air merupakan senyawa alami yang melimpah di permukaan bumi dan menjadi salah satu unsur paling esensial bagi kelangsungan hidup seluruh makhluk hidup. Air berperan penting dalam berbagai aktivitas kehidupan, mulai dari kebutuhan biologis seperti minum dan metabolisme tubuh, hingga kebutuhan sehari-hari seperti memasak, sanitasi, pertanian, dan kegiatan industri. Keberadaan air yang cukup serta berkualitas baik sangat menentukan tingkat kesehatan masyarakat dan keseimbangan lingkungan.

Namun demikian, tidak semua air yang tersedia memiliki kualitas yang aman untuk dikonsumsi manusia. Kandungan mineral tertentu memang dibutuhkan tubuh dalam jumlah yang wajar, tetapi apabila berlebihan atau tercampur dengan zat berbahaya, air justru dapat menimbulkan dampak negatif bagi kesehatan. Kondisi ini semakin berisiko apabila sumber air telah terkontaminasi oleh limbah rumah tangga, limbah industri, bahan kimia, mikroorganisme patogen, maupun pencemaran lingkungan lainnya. Air yang tercemar dapat menyebabkan berbagai penyakit, seperti gangguan pencernaan, keracunan, infeksi, hingga masalah kesehatan jangka panjang.

Oleh sebab itu, diperlukan suatu upaya untuk membedakan secara jelas antara air yang layak dikonsumsi dan air yang tidak layak dikonsumsi. Penentuan kualitas air perlu dilakukan berdasarkan parameter fisik, kimia, maupun biologis agar masyarakat dapat memperoleh sumber air yang aman dan sesuai standar kesehatan. Melalui identifikasi kualitas air yang akurat, potensi gangguan kesehatan akibat mengonsumsi air tercemar dapat ditekan, sehingga taraf hidup masyarakat dapat meningkat.

Permasalahan utama dalam penelitian ini terletak pada bagaimana cara mengidentifikasi serta mengklasifikasikan air berdasarkan tingkat kelayakannya untuk dikonsumsi. Tidak semua sumber air memiliki kualitas yang sama, sehingga diperlukan suatu metode yang mampu membedakan air layak minum dan air yang tidak layak minum secara objektif, cepat, dan akurat. Proses identifikasi ini menjadi penting karena penilaian kualitas air secara manual sering kali membutuhkan waktu, biaya, serta pengujian laboratorium yang tidak sedikit. Oleh karena itu, dibutuhkan pendekatan berbasis teknologi yang mampu membantu proses pengambilan keputusan secara lebih efisien.

Salah satu pendekatan yang digunakan untuk menyelesaikan permasalahan tersebut dengan memanfaatkan data mining melalui teknik klasifikasi, yaitu metode yang bertujuan mengelompokkan data ke dalam kategori tertentu berdasarkan karakteristik yang dimiliki. Dengan teknik klasifikasi, data kualitas air dapat dipelajari untuk menghasilkan model prediksi yang mampu menentukan apakah suatu sampel air termasuk layak atau tidak layak dikonsumsi.

Algoritma yang diterapkan dalam penelitian ini adalah Naïve Bayes, yaitu salah satu metode klasifikasi berbasis probabilitas yang bekerja berdasarkan Teorema Bayes dengan asumsi independensi antar atribut. Algoritma ini dipilih karena memiliki keunggulan dalam proses komputasi yang cepat, sederhana, serta mampu memberikan hasil klasifikasi yang baik meskipun menggunakan dataset berukuran cukup besar. Untuk meningkatkan performa model, dilakukan tahap pra-pemrosesan data, seperti pembersihan data, penanganan data kosong, normalisasi, dan penyeimbangan data. Tahapan ini bertujuan agar data yang digunakan lebih bersih, konsisten, dan representatif sehingga hasil klasifikasi yang diperoleh menjadi lebih optimal dan akurat.

Dataset yang digunakan dalam penelitian ini diperoleh dari platform Kaggle, yang merupakan salah satu sumber dataset publik yang banyak dimanfaatkan dalam penelitian data science dan machine learning. Dataset tersebut terdiri dari 1.207 data yang merepresentasikan sampel kualitas air dengan berbagai karakteristik fisik dan kimia. Setiap data memiliki sejumlah parameter yang digunakan sebagai atribut penilaian kualitas air, yaitu pH, hardness (tingkat kesadahan), solids (jumlah padatan terlarut), sulfate, conductivity (daya hantar listrik), organic carbon, trihalomethanes, turbidity (tingkat kekeruhan), serta potability sebagai label atau target klasifikasi yang menunjukkan apakah air layak diminum atau tidak.

Sebelum dilakukan tahap klasifikasi, dataset terlebih dahulu diproses melalui tahap preprocessing data guna meningkatkan kualitas data serta menghasilkan model yang lebih optimal. Tahapan preprocessing yang dilakukan meliputi pembersihan data kosong (missing value handling) untuk mengatasi atribut yang tidak memiliki nilai, sehingga tidak mengganggu proses analisis. Selain itu, dilakukan normalisasi Min-Max, yaitu teknik penskalaan data agar setiap atribut berada pada rentang nilai yang sama, sehingga perbedaan skala antar variabel tidak memengaruhi proses pembelajaran model. Tahap berikutnya adalah penyeimbangan data menggunakan metode oversampling, yang bertujuan mengurangi ketimpangan jumlah data antar kelas agar model klasifikasi tidak cenderung memihak kelas mayoritas.

Setelah proses pembersihan data dilakukan, jumlah data yang dapat digunakan dalam penelitian menjadi 710 data. Dataset hasil cleaning tersebut terdiri atas 210 data air layak minum dan 500 data air tidak layak minum. Kondisi ini menunjukkan bahwa distribusi kelas masih belum seimbang, sehingga diperlukan proses penyeimbangan data agar performa model klasifikasi, khususnya dalam mendeteksi kelas minoritas, dapat meningkat secara signifikan.

Tahap pelatihan dan pengujian model menggunakan dataset kualitas air yang terdiri atas sembilan atribut, yaitu konduktivitas, kekerasan, karbon organik, pH, trihalometana, padatan, kekeruhan, sulfat, dan potabilitas air minum. Hasil pengujian pada dataset yang belum seimbang menunjukkan rata-rata akurasi 84,5%, presisi 84,1%, dan recall 58,6%. Setelah dilakukan penyeimbangan data, performa model meningkat dengan rata-rata akurasi 89,7%, presisi 88,7%, dan recall 90,8%.

Berdasarkan hasil penelitian, dapat dinyatakan bahwa penggunaan algoritma Naïve Bayes yang disertai tahap preprocessing data terbukti mampu meningkatkan performa klasifikasi kualitas air secara signifikan. Metode ini memiliki potensi sebagai solusi yang efektif untuk membantu proses penentuan kelayakan air konsumsi secara cepat, tepat, dan efisien, sehingga dapat menunjang kesehatan masyarakat serta pengelolaan sumber daya air yang lebih optimal.

Penulis: Purbandini, S.Si., M.Kom.

Link:

AKSES CEPAT