Pengekstrakan dan Perwakilan Semantik Dokumen Web Berorientasikan Domain Ontologi

ABSTRAK Internet menjadi pilihan sebagai prasarana asas bagi mendapatkan maklumat digital pelbagai topik dari seluruh dunia. Namun demikian kebanyakan dokumen web dalam Internet ini adalah tidak berstruktur dan tidak mempunyai maklumat semantik dokumen. Sistem pengekstrakan maklumat yang ada lebih memfokuskan kepada pengekstrakan konsep penting dalam mewakili kandungan dokumen tanpa mengambil kira aspek semantik. Perwakilan kandungan maklumat dalam bentuk kaya semantik merupakan salah satu visi web semantik. Kertas ini membincangkan pengaplikasian pendekatan ontologi dan pemprosesan bahasa tabii dalam menyokong pengekstrakan dan perwakilan maklumat semantik dokumen web. Memandangkan penganotasian maklumat semantik secara manual daripada dokumen web adalah tidak praktikal dan pembangunan sistem automatik sepenuhnya masih terlalu awal untuk diimplementasikan, maka pendekatan separa-automatik telah diusulkan. Dalam hal ini, sistem berfungsi untuk memandu pengguna dalam pemodelan semantik dokumen web yang seterusnya menghasilkan kandungan dokumen web atau set dokumen web yang lebih kaya semantik. Model semantik yang dijana diwakilkan dalam format XML. Katakunci: Perwakilan semantik dokumen, pengekstrakan maklumat semantik, ontologi, analisis bahasa tabii.

[1]  William A. Woods,et al.  Conceptual Indexing: A Better Way to Organize Knowledge , 1997 .

[2]  Dieter Fensel,et al.  Practical Knowledge Representation for the Web , 1999, Intelligent Information Integration.

[3]  James A. Hendler,et al.  The Semantic Web" in Scientific American , 2001 .

[4]  Daniele Nardi,et al.  Knowledge representation techniques for information extraction on the Web , 1998, World Conference on the WWW and Internet.

[5]  Hans Peter Luhn,et al.  The Automatic Creation of Literature Abstracts , 1958, IBM J. Res. Dev..

[6]  Carl Gutwin,et al.  KEA: practical automatic keyphrase extraction , 1999, DL '99.

[7]  David E. Millard,et al.  Automatic Ontology-Based Knowledge Extraction from Web Documents , 2003, IEEE Intell. Syst..

[8]  Arul Prakash Asirvatham,et al.  Web Page Classification based on Document Structure , 2001 .

[9]  Lotfi A. Zadeh,et al.  A note on web intelligence, world knowledge and fuzzy logic , 2004, Data Knowl. Eng..

[10]  Chris Welty,et al.  FOIS introduction: Ontology---towards a new synthesis , 2001, FOIS.

[11]  Douglas B. Lenat,et al.  CYC: a large-scale investment in knowledge infrastructure , 1995, CACM.

[12]  Jon Atle Gulla,et al.  Natural language analysis for semantic document modeling , 2001, Data Knowl. Eng..

[13]  Thomas R. Gruber,et al.  A translation approach to portable ontology specifications , 1993, Knowl. Acquis..

[14]  Fabio Crestani,et al.  Ontology mapping by concept similarity , 2004 .

[15]  Barry Smith,et al.  FOIS introduction: Ontology---towards a new synthesis , 2001, FOIS.