Investigating Retrieval-augmented Generation In Quranic Studies: A Study Of 13 Open-source Large Language Models

Search by :

ALL Author Subject NPM Advanced Search

Last search:

Image of Investigating Retrieval-augmented Generation In Quranic Studies: A Study Of 13 Open-source Large Language Models

Text

Investigating Retrieval-augmented Generation In Quranic Studies: A Study Of 13 Open-source Large Language Models

Arbi Haza Nasution - Personal Name; Zahra Khalila - Personal Name;

Respons yang akurat dan sesuai konteks sangat penting saat menerapkan model bahasa besar (LLM) pada tugas-tugas yang sensitif dan spesifik domain, seperti menjawab pertanyaan yang terkait dengan studi Al-Qur'an. LLM tujuan umum sering kali mengalami halusinasi, di mana respons yang dihasilkan menyimpang dari sumber yang berwenang, sehingga menimbulkan kekhawatiran tentang keandalannya dalam konteks keagamaan. Tantangan ini menyoroti perlunya sistem yang dapat mengintegrasikan pengetahuan spesifik domain sambil mempertahankan akurasi, relevansi, dan kesetiaan respons. Dalam studi ini, kami menyelidiki 13 LLM sumber terbuka yang dikategorikan menjadi besar (misalnya, Llama3:70b, Gemma2:27b, QwQ:32b), sedang (misalnya, Gemma2:9b, Llama3:8b), dan kecil (misalnya, Llama3.2:3b, Phi3:3.8b). Retrieval-Augmented Generation (RAG) digunakan untuk mengatasi masalah yang muncul akibat penggunaan model terpisah. Penelitian ini menggunakan kumpulan data deskriptif surat-surat Al-Quran yang mencakup makna, konteks historis, dan kualitas dari 114 surat, yang memungkinkan model mengumpulkan pengetahuan yang relevan sebelum merespons. Model dievaluasi menggunakan tiga metrik utama yang ditetapkan oleh evaluator manusia: relevansi konteks, ketepatan jawaban, dan relevansi jawaban. Temuan tersebut mengungkapkan bahwa model besar secara konsisten mengungguli model yang lebih kecil dalam menangkap semantik kueri dan menghasilkan respons yang akurat dan berlandaskan konteks. Model Llama3.2:3b, meskipun dianggap kecil, bekerja sangat baik dalam hal ketepatan (4,619) dan relevansi (4,857), yang menunjukkan janji arsitektur yang lebih kecil yang telah dioptimalkan dengan baik. Artikel ini mengkaji trade-off antara ukuran model, efisiensi komputasi, dan kualitas respons saat menggunakan LLM dalam aplikasi khusus domain.

Availability

Teknik Informatika Location name is not set

ETD1396II

Available but not for loan - ETD

Detail Information

Call Number: -
Language: Indonesia
NPM: 213510737
Publisher: Teknik Informatika : Universitas Islam Riau., 2025
Keyword(s): Large-language-models
retrieval-augmented generation
question answering
Quranic studies
Islamic teachings

Other Information

Petugas: Putri

Other version/related

No other version available

File Attachment

Please login to see this attachment

Comments

You must be logged in to post a comment