Pembangunan Prototipe Xtractorz Sebagai Tools Dalam Proses Kegiatan Web Table Extraction Dan Pembuatan Mashup

ABSTRAK Dalam paper ini, kami memperkenalkan prototipe sistem aplikasi Xtractorz dengan GUI nya (Graphical User Interface) sebagai suatu “tools” atau alat bantu bagi pengguna melakukan ekstraksi tabel data dari suatu halaman web (web table extraction) diintegrasikan dengan tahapan pembuatan Mashup. Prototipe Xtractorz saat ini terus dikembangkan dengan pendekatan baru berupa algoritma berbasis rekursif dilengkapi aturan (rules) yang mengatur proses ekstraksi tabel data dalam format HTML dari suatu halaman web. Proses ekstraksi dilakukan menggunakan struktur pemodelan pohon DOM (Document Object Model-Tree), agar prototipe Xtractorz mampu secara komprehensif melakukan proses indeksing dan parsing terhadap kode-kode atau tag-tag HTML halaman web yang diekstraksi tabel datanya. Dalam proses tersebut seluruh tag-tag atau kode-kode HTML diidentifikasi siapa Node Root, Parent, Child, Sibling dan Leaf nya, kemudian dikelompokan dalam bentuk array. Proses identifikasi dan pengelompokan merupakan hal penting untuk kegiatan komputasi atribut atau tabel data, terutama data dalam jumlah besar. Sedangkan kontribusi utama prototipe Xtractorz adalah kemampuan membangun pohon DOM secara otomatis berdasarkan hasil indeksing dan parsing mengacu algoritma dan aturan yang dibuat. Sementara evaluasi prototipe Xtractorz dilakukan dengan pengujian terhadap contoh sampel target URL yang berisi tabel-tabel data hasil Pemilu 2009. Hasil pengujian menunjukkan prototype Xtractorz mampu melaksanakan proses web table extraction dan pembuatan Mashup secara komprehensif, sekaligus membuat pohon DOM nya secara otomatis, dan dapat ditampilkan pada layar GUI.

[1]  Georg Gottlob,et al.  Visual Web Information Extraction with Lixto , 2001, VLDB.

[2]  Craig A. Knoblock,et al.  Building data integration queries by demonstration , 2007, IUI '07.

[3]  Riri Fitri Sari,et al.  Implementing web data extraction and making Mashup with Xtractorz , 2010, 2010 IEEE 2nd International Advance Computing Conference (IACC).