Teknik Untuk Mengatasi Keterbatasan Data, Seperti Augmentasi Data dan Transfer Pembelajaran

unairnews

Mei 10, 2023

3:26 pm

FTMM NEWS – Pelabelan data adalah proses menggolongkan data input dengan nilai output ditentukan yang terkait. Data pelatihan berlabel diperlukan untuk pembelajaran yang diawasi. Misalnya, jutaan gambar apel dan pisang perlu ditandai dengan kata �apel� atau �pisang.� Kemudian, aplikasi machine learning dapat menggunakan data pelatihan ini untuk menebak nama buah saat diberi sebuah gambar buah. Namun, melabeli jutaan data yang baru mungkin menjadi tugas yang memakan waktu dan menantang. Layanan crowd-sourcing seperti Amazon Mechanical Turk dapat mengatasi keterbatasan algoritma pembelajaran yang diawasi ini sampai batas tertentu. Layanan ini menyediakan akses ke kolam besar tenaga kerja terjangkau yang tersebar di seluruh dunia, sehingga dapat mengurangi kesulitan dalam akuisisi data.

Pendekatan terakhir yang cenderung menghasilkan keuntungan signifikan pada kasus penggunaan sejumlah kecil data yang tersedia untuk dilatih dengan model dikenal sebagai Transfer Learning. Transfer Learning adalah tempat menggunakan model yang telah dilatih oleh Data Scientists lain dan kemudian tinggal memperbarui model tersebut dengan data baru kita.

Seiring perkembangan ilmu Data Science, semakin banyak teknik yang tersedia untuk membantu memperluas kumpulan data kecil dengan data sintetik. Data sintetik adalah data yang dihasilkan dari model lain, simulasi, atau permutasi kumpulan data kecil untuk menghasilkan kumpulan data masuk akal yang lebih besar. Tujuannya adalah untuk memperkirakan populasi secara akurat sekaligus meningkatkan kekuatan statistik.

Praktik terbaik untuk mengembangkan prediksi akurat dengan data terbatas

Pendekatan deterministik berfokus pada akurasi dan jumlah data yang dikumpulkan, sehingga efisiensi lebih diprioritaskan daripada ketidakpastian. Di sisi lain, proses non-deterministik (atau probabilistik) didesain untuk mengelola faktor peluang. Alat bawaan terintegrasi ke dalam algoritma machine learning untuk membantu menghitung, mengidentifikasi, serta mengukur ketidakpastian selama pembelajaran dan observasi.

Dalam proses pengerjaannya, metode ini perlu bantuan dari data-data periode sebelumnya untuk melatih dan menentukan model dari algoritma yang dipilih. Apabila pelatihan data tersebut memungkinkan, maka model tersebut dapat membantu hasil input membuat prediksi lebih akurat.

Penggabungan beberapa model yang sama-sama dapat menyelesaikan persoalan cenderung akan meningkatkan kepercayaan kita mengenai hasil prediksi sebab divalidasi oleh beberapa model. Dengan menggabungkan output dari beberapa model melalui rata-rata atau pemungutan suara (2 teratas dari 3 model misalnya), kita akan melakukan pekerjaan yang lebih baik dalam menangani varian model dan meningkatkan kemampuan model untuk menggeneralisasi (menangkap pola) alias meningkatkan performa model menjadi lebih baik. Namun demikian, dalam pengembangan Artificial Intelligence di dunia Industri, cenderung cukup menantang. Karena menggunakan Ensembel Methods membutuhkan biaya komputasi yang cukup tinggi (karena menggabungkan beberapa model) sehingga menjadi tantangan tersendiri ketika menggunakan model tersebut secara luas (deployment). (far/and)

Kontributor : Verdyan Farrel Biliarsa, mahasiswi prodi Teknologi Sains Data

Sumber :

Pembelajaran mesin data kecil dalam ilmu material. (n.d.) Retrieved May 5, 2023, from translate.google.com
Membuat Machine Learning Andal Meski dengan Keterbatasan Data, Ini Caranya!. (n.d.) Retrieved May 5, 2023, from blog.algorit.ma/atasi-keterbatan-data-machine-learning/
Keunggulan Hingga Kelemahan Machine Learning yang Wajib Diketahui. (n.d.) Retrieved May 5, 2023, from dqlab.id
Apa itu Machine Learning?. (n.d.) Retrieved May 5, 2023, from aws.amazon.com/id/what-is/machine-learning/
4 Metode Machine Learning dalam Dunia Bisnis. (n.d.) Retrieved May 5, 2023, from compas.co.id/article/metode-machine-learning/

51��