STUDI KINERJA FUNGSI-FUNGSI JARAK DAN SIMILARITAS DALAM CLUSTERING DOKUMEN TEKS BERBAHASA INDONESIA

Amir Hamzah, F. Soesianto, Adhi Susanto, Jazi Eko Istiyanto

Abstract


Clustering dokumen teks banyak diteliti karena peranan pentingnya dalam bidang text-mining dan information retrieval.  Dalam algoritma clustering pemilihan fungsi jarak atau fungsi similaritas antar objek menjadi kunci keberhasilan algoritma. Pada fungsi jarak, jarak euclidean paling sering digunakan. Fungsi ini memiliki kelemahan jika digunakan untuk vektor berdimensi sangat tinggi yang  menyebabkan kinerja clustering menurun. Alternatif dari fungsi jarak adalah fungsi similaritas, antara lain jaccard, dice, cosine dan pearson. Penelitian ini melakukan kajian tentang unjuk kerja fungsi jarak euclidean dengan empat fungsi similaritas tersebut di atas jika diterapkan untuk melakukan clustering dokumen teks berbahasa Indonesia. Dua pendekatan clustering yang dicobakan adalah pendekatan hierarchi dan partisi. Untuk pendekatan hierachi digunakan teknik aglomeratif dengan 2 metode similaritas cluster yaitu  GroupAverage dan  CompleteLink. Untuk pendekatan  partisi juga dicobakan  2 metode, yaitu Bisecting K-Mean dan Buckshot. Koleksi dokumen yang digunakan 12 koleksi dokumen teks berita, yaitu dengan cacah dokumen 50, 100, 200, 300, 400, 500, 600, 700, 800, 1009, 1270 dan 1370 dokumen. Semua koleksi telah dilakukan clustering secara manual. Kriteria kinerja clustering diukur berdasarkan waktu komputasi dan validitas clustering. Untuk validitas digunakan nilai F-measure, yaitu nilai yang diturunkan dari Recall dan Precision  yang mengukur kemampuan algoritma melakukan klasifikasi secara benar. Hasil penelitian menunjukkan bahwa hasil clustering terbaik adalah jika digunakan fungsi  Cosine  dengan rata-rata F-measure untuk seluruh koleksi  0,9313; sementara yang terburuk adalah jika digunakan fungsi jarak eucledian dengan rata-rata F-measure 0,4668.  Secara waktu komputasi fungsi cosine juga memiliki kinerja tercepat dengan rata-rata 12,9 detik sedangkan terjelek adalah pearson dengan rata-rata 58,2 detik. 


References


Asian, J., H. E. Williams, and S. M. M. Tahaghoghi, 2005, Stemming Indonesian, 28th Australian Computer Science Conference (ACS2005).

Chisholm, E. and T. G. Kolda, 1999, “New Term Weighting Formula for the Vector Space Method in Information Retrieval”, Research Report, Computer Science and Mathematics Division, Oak Ridge National Library, Oak Ridge, TN 3781-6367, March 1999.

Cutting, D. R., D. R. Karger, J. O. Pederson, and J. W. Tukey,1992, Scatter/Gather:A Cluster-based Approach to Browsing Large Document Collection, Procedding 15th Annual Int 7ACM SIGIR Conference on R&D in IR, June 1992.

Hamzah, A., Adhi Susanto, F.Soesianto, Jazi Eko Istiyanto, 2007, “Studi Komparasi Algoritma Hierarchical Dan Partitional Untuk Clustering Dokumen Teks Berbahasa Indonesia”, Jurnal Terakreditasi , ACADEMIA ISTA Agustus 2007

Jain, A.K. and R. C. Dubes, 2001, Algorithms for Clustering Data, Prentice-Hall.

Luhn, H.P. (1958), The Automatic Creation of Literature Abstracts. IBM Journal of Research and Development, 2:159-165.

Porter, M. , 1980, An Algorithm for Suffix Stripping, Program 13(3), 130-137.

Rijsbergen, C. J.,1979, Information Retrieval, Information Retrieval Group, University of Glasgow .

Steinbach, M., G. Karypis, and V. Kumar , 2000, A Comparison of Document Clustering Techniques, KDD Workshop on Text Mining, www.citeseer.ist.psu.edu/steincah00comparison.html

Strehl, A., J. Ghosh, and R. Mooney, 2000, Impact of Similarity Measures on Web-Page Clustering, Proceeding of the Workshop of Artificial Intelligent for Web Search, 17th National Conference on Artificial Intelligence, July 2000.

Tala, F. Z., 2004, “A Study of Stemming Effect on Information Retrieval in Bahasa Indonesia”, Master Thesis, Universiteit van Amsterdam, The Netherlands


Refbacks

  • There are currently no refbacks.