common.openJournalSystems

POS Tagger Tweet Bahasa Indonesia

Yuda Munarko, yufis azhar, Maulina Balqis, Susi Ekawati

Abstract

Pada penelitian ini dilakukan investigasi POS Tagger dengan pendekatan Cyclic Dependency Network untuk data tweet dalam Bahasa Indonesia. Untuk koleksi tweet, digunakan tiga koleksi data, yakni tweet dengan gaya bahasa formal, informal dan gabungan. Sumber koleksi tweet formal adalah tweet dari akun berita, sedangkan koleksi tweet informas didapatkan dari akun umum. Adapun jenis tag yang digunakan berjumlah 41, dimana 35 adalah standar tag Bahasa Indonesia dan 6 adalah tambahan tag untuk twitter. Hasilnya adalah untuk koleksi data formal ketepatan deteksi mencapai 95,42%. Sedangkan untuk koleksi data informal dan gabungan ketepatannya mencapai 92,42% dan 90,69% secara berurutan. Kami juga mendapatkan hasil bahwa untuk tag yang sering muncul cenderung untuk memiliki nilai ketepatan yang tinggi juga, sedangkan tag yang kemunculannya lebih sedikit menyebabkan penurunan rata-rata ketepat secara keseluruhan.

Keywords

Pada penelitian ini dilakukan investigasi POS Tagger dengan pendekatan Cyclic Dependency Network untuk data tweet dalam Bahasa Indonesia. Untuk koleksi tweet, digunakan tiga koleksi data, yakni tweet dengan gaya bahasa formal, informal dan gabungan. Sumbe

Full Text:

PDF

References

Marshall I. Tag selection using probabilistic methods. In Roger Garside, Geoffrey Sampson, and Geoffrey Leech, editors, The Computational analysis of English: a corpus-based approach. Longman, London. (1987): 4265.

Church. KW. A stochastic parts program and noun phrase parser for unrestricted text. In ANLP 2. (1988): 136-143.

Toutanova K., et al. "Feature-rich part-of-speech tagging with a cyclic dependency network." Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology-Volume 1. Association for Computational Linguistics, 2003.

Pisceldo F., et al. Probabilistic Part-of- Speech Tagging for Bahasa Indonesia. In The Third International MALINDO Workshop, Colocated Event ACL-IJCNLP. 2009.

Wicaksono AF., Purwariyanti A. "HMM based part-of-speech tagger for Bahasa Indonesia." Fourth International MALINDO Workshop, Jakarta. 2010.

Hassan M., et al. "Statistical malay part-of-speech (POS) tagger using Hidden Markov approach." Semantic Technology and Information Retrieval (STAIR), 2011 International Conference on. IEEE. 2011.

Toutanova K., Manning C. Enriching the knowledge sources used in a maximum entropy part-of- speech tagger. In EMNLP/VLC 1999. (2000): 6371.

Sang-Zoo Lee, Jun ichi Tsujii, and Hae-Chang Rim. Part- of-speech tagging based on Hidden Markov Model assuming joint independence. In ACL 38 (2000); 263169.

Kevin, et al. "Part-of-speech tagging for twitter: Annotation, features, and experiments." Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers-Volume 2. Association for Computational Linguistics. 2011.

Foster J., et al. "# hardtoparse: POS Tagging and Parsing the Twitterverse." proceedings of the Workshop On Analyzing Microtext (AAAI 2011). 2011.

Derczynski L., et al. "Twitter Part-of- Speech Tagging for All: Overcoming Sparse and Noisy Data". In Proceedings of the International Conference on Recent Advances in Natural Language Processing, ACL. 2013.

Zhunchen L., et al. "Improving Twitter Retrieval by Exploiting Structural Information." AAAI. 2012.

Refbacks

  • There are currently no refbacks.
 

Indexed by:

Referencing Software:

Checked by:

Statistic:

View My Stats


Creative Commons License Kinetik : Game Technology, Information System, Computer Network, Computing, Electronics, and Control by http://kinetik.umm.ac.id is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

ISSN: 2503-2267