Teknik Pengukuhan Perangkak Tumpuan melalui Modul Pengesan Bahasa bagi Capaian Web Bahasa Melayu (Focused Crawler Enhancement Technique with Language Detection Module for Malay Web Retrieval)

Perangkak ialah antara komponen utama dalam seni bina sistem capaian maklumat atau enjin gelintar. Ia berfungsi mengumpul laman web yang relevan bertujuan untuk diuruskan melalui pengindeksan maklumat pautan dan kandungan. Perangkak tumpuan adalah aplikasi perangkak yang direka khas untuk memilih dan mengumpul laman web yang mempunyai kaitan tentang domain atau pertanyaan khusus di Internet. Perangkak yang baik mampu memberikan keputusan maklumat yang tepat, pantas, luas dan relevan kepada pengguna semasa proses pencarian maklumat menggunakan enjin gelintar. Kesukaran malah ketidakupayaan mengesan pautan serta kandungan berbahasa Melayu merupakan antara isu utama. Kesannya ialah ada di antara kandungan laman web Bahasa Melayu tidak dapat diindeks seterusnya diproses untuk capaian maklumat. Malah kekurangan perangkak yang khusus bagi carian laman web Bahasa Melayu sebagai bahasa carian utama menjadi pendorong utama penyelidikan ini. Maka objektif utama kajian ini adalah untuk mengenalpasti strategi merangkak yang baik untuk perangkak tertumpu memilih pautan yang relevan dan berkualiti berdasarkan pertanyaan Bahasa Melayu. Perangkak tumpuan yang digunakan dalam penyelidikan ini telah melalui pengubahsuaian hasil daripada gabungan beberapa teknik pengukuhan merangkak. Hasil pengujian yang berulang menunjukkan kehadiran modul pengukuhan perangkak tumpuan telah memberi keputusan yang baik iaitu berupaya mengesan laman web bahasa Melayu yang tepat. Penyelidikan ini juga menjadi titik tolak kepada perkembangan pencarian maklumat berdasarkan pertanyaan Bahasa Melayu di Internet, di samping dapat memartabatkan Bahasa Melayu di dunia siber. Kata Kunci: perangkak; capaian maklumat; Bahasa Melayu; enjin gelintar; web ABSTRACT Crawler is one of the major components in the architecture of information retrieval systems or search engines. The function is to gather relevant websites aimed to be managed through indexing of links and content. A focused crawler application is designed to select and collect web pages that are relevant to domains or specific topics in the Internet. A good crawler can  provide accurate, extensive and relevant information to the user during the process of information seeking using search engines. The inability to detect links and content of Malay language is one of the main issues. Therefore, some of the content of the Malay website cannot be indexed and processed for information retrieval. The lack of research in focused crawler especially for Malay website has motivated this research. The main objective of this study is to identify good crawling strategies for focused crawler in detecting relevant and quality links for Malay website. The focused crawler employed in this research has undergone some modifications resulting from a combination of some crawling strengthening techniques. Findings indicate that the presence of a focused crawler enhancement module provides good results because it can detect Malay language webs accurately. This research is also a turning point for the development of information retrieval for Malay websites as well as enhancing the prominence of Malay language in cyberspace. Keywords: crawler; information retrieval; Malay language; search engine; web