51动漫

51动漫 Official Website

Hybrid Information Retrieval dengan Masked Permuted Language Modelling (MPNet) dan BM25L untuk Pencarian Data Obat di Indonesia

Hybrid Information Retrieval dengan Masked and Permuted Language Modelling (MPNet) dan BM25L untuk Pencarian Data Obat di Indonesia
Photo by builtin.com

Pendekatan pengambilan informasi leksikal menghadapi tantangan seperti kesenjangan semantik dan ketidakcocokan kosakata, terutama dalam data medis yang kompleks dan beragam. Meskipun pendekatan semantik dapat mengatasi masalah ini, namun memperkenalkan tantangan baru berupa soft matching yang dapat menurunkan recall. Sebagai solusi, kami mengusulkan metode pengambilan informasi hybrid yang menggabungkan pendekatan semantik dan leksikal. Kami mengintegrasikannya sebagai bagian inti dari proses pengambilan awal dokumen dan hasil akan diurutkan ulang menggunakan Reciprocal Rank Fusion.

Dalam penelitian ini, kami menggunakan metrik recall dan precision untuk mengukur performanya. Recall dan precision dievaluasi pada posisi pengambilan dokumen 5, 15, dan 30. Pengujian melibatkan 100 kueri, terdiri dari 58 kueri umum seperti 渙bat pusing, dan 42 kueri spesifik seperti 渙bat mielopati kronik dengan kandungan tizanidine hidroklorida. Setiap kueri diberi label dengan ID dokumen.

Dari hasil analisis kami, BM25L adalah model leksikal terbaik dibandingkan dengan Jaccard Similarity, Query Likelihood Model (QLM), dan MPNet adalah model terbaik dibandingkan dengan doc2vec, BERT, IndoBERT, MiniLM. Selanjutnya, kami menguji metode hybrid dengan penggabungan BM25L dan MPNet dan Reciprocal Rank Fusion sebagai metode pemeringkatan. Hasil hybrid ini melampaui model semantik saja sebesar 18,8% dan melebihi model leksikal saja sebesar 7,8% dalam hal recall pada posisi pengambilan dokumen ke-30. Dalam hal precision, model hybrid lebih efektif 4,8% dibandingkan model semantic dan lebih efektif 3% dibandingkan model leksikal saja.

Kami juga mengevaluasi metode yang diusulkan dengan pendekatan hybrid lainnya di mana Pretrained Language Model (PLM) digunakan secara eksklusif hanya untuk tahap pemeringkatan ulang. Dalam metodologi kami, model BM25L digunakan sebagai model pengambil, dan 50 dokumen teratas yang diambil pada tahap awal diteruskan ke model pemeringkat ulang, yaitu MPNet. Pada posisi pengambilan dokumen ke-30, metode yang kami usulkan menunjukkan peningkatan efektivitas sebesar 8,6% dalam hal recall dan peningkatan efektivitas sebesar 2,9% dalam hal precision dibandingkan pendekatan pengambilan teks berbasis PLM.

Dalam penelitian kami, kami mengevaluasi kompleksitas waktu dari metode yang kami usulkan dibandingkan dengan model berkinerja terbaik dalam domain leksikal (BM25L) dan semantik (MPNet). Rata-rata waktu pemrosesan kueri untuk model leksikal adalah sekitar 219,3 milidetik, sedangkan model berbasis semantik membutuhkan sekitar 357 milidetik. Mengingat kerumitan desain arsitekturnya, waktu pemrosesan tambahan yang diamati dalam metode yang kami usulkan dapat diterima. Namun, dengan durasi pemrosesan kueri selama 484,6 milidetik, metode kami masih berada dalam rentang yang dapat diterima untuk tugas pengambilan informasi, menandakan waktu operasional yang wajar.

Metode yang diusulkan berhasil menggabungkan keunggulan metode semantik dan leksikal, meningkatkan kinerja dalam pengambilan dokumen relevan. Namun, kompleksitas penyakit, terutama dalam konteks farmasi dan kesehatan, memerlukan pemahaman lebih mendalam yang mungkin belum sepenuhnya tercakup oleh model semantik dalam hybrid kami.

Penelitian ke dapan akan berfokus melatih paraphrase-multilingual-mpnet-base-v2 dengan data biomedis seperti MESH dan PubMed untuk meningkatkan kemampuannya dalam menangani kueri terkait komposisi obat dan nama penyakit. Selain itu, kami akan mengeksplorasi Convex Combination sebagai fungsi fusi dalam pengambilan informasi hybrid. Penelitian teknik klasterisasi seperti approximate nearest neighbor juga akan penting untuk mengelola data medis yang terus berkembang sambil menjaga waktu pemrosesan kueri tetap efisien.

Penulis: Dr. Maryamah, S.Kom.

Baca juga: Immunoglobulin-E dan Hormon Thyroid-Stimulating sebagai Antibodi Reseptor pada penyakit Graves dengan Atopi

AKSES CEPAT