โครงการย่อยที่ 2

Sub-Project 2



ชื่อโครงการวิจัย

การสกัดคำนามประสมในภาษาไทย

Research Title

Thai Compound Noun Extraction


หัวหน้าโครงการย่อยที่ 2

รองศาสตราจารย์ ดร. วิโรจน์ อรุณมานะกุล

Head of Sub-Project 2

Associate Professor Wirote Aroonmanakun, Ph.D.


หน่วยงาน

ภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์

Affiliation

Department of Linguistics, Faculty of Arts


หลักการและเหตุผล

การสร้างคำใหม่ด้วยวิธีการประสมคำเป็นกลไกสำคัญในภาษาไทยและเป็นปัญหาหนึ่งทีสำคัญในการประมวลผลภาษาไทย โปรแกรมตัดคำภาษาไทยจะประสบปัญหาเมื่อพบคำใหม่ๆ หรือคำที่ยังไม่ได้บรรจุไว้ในพจนานุกรม การวิเคราะห์คำประสมที่พบในคลังข้อมูลภาษาไทยจะช่วยให้เห็นถึงรูปแบบและโครงสร้างของคำประสม ซึ่งจะเป็นความรู้พื้นฐานในการเข้าใจปัญหาของการประมวลผลภาษาไทยในเรื่องนี้

หลังจากเข้าใจพื้นฐานปัญหาแล้ว จะได้ศึกษาวิธีการต่างๆ ที่ใช้ในเรื่องการสกัดศัพท์เฉพาะทาง (term extraction) และการสกัดคำประสม (compound extraction) ในภาษาต่างๆ ทั้งที่เป็นแบบอิงกฎหรืออิงสถิติ เพื่อวางแนวทางที่เหมาะสมกับการระบุคำประสมภาษาไทย และทดสอบวิธีการที่นำเสนอกับคลังข้อมูลภาษาไทย เพื่อวัดประสิทธิภาพของวิธีการที่นำเสนอ

โครงการนี้เป็นการพัฒนาต่อเนื่องเพื่อใช้ร่วมกับโมดูลอื่นๆ ในภาษาไทย ได้แก่ การตัดคำ การรู้จำฃื่อเฉพาะ การกำกับหมวดคำ เพื่อให้คอมพิวเตอร์วิเคราะห์ข้อมูลคำไทยที่ปรากฏได้อย่างถูกต้องมากที่สุด

Principles and Reasons

Compounding is an important process in creating a new word in Thai. Recognizing a compound is an active research in natural language processing. A lot of errors in Thai word segmentation are caused by unidentified compounds in the text. A structural analysis of Thai compounds in a corpus will reveal some basic facts useful for understanding this problem.

Previous research on term extraction and compound extraction in various languages will be reviewed. Various methods including rule-based and statistical-based used to handle these issues will be summarized. A method that is suitable for Thai compound extraction will be proposed, implemented and evaluated.

This project is part of the Thai language processing project, in which the module created from this project along with other modules like word segmentation, named entity recognition and part-of-speech tagging will be included in a program for analyzing Thai words.


ผลงานวิจัย/ผลผลิต

  1. บทความวิจัยตีพิมพ์ใน proceedings ระดับนานาชาติที่อยู่ในฐานข้อมูล หรือในวารสารนานาชาติ 2 บทความ
  2. โมดูลสำหรับระบุคำประสมภาษาไทยสำหรับนำไปประกอบใช้กับโปรแกรมวิเคราะห์คำไทย

Research/Outputs

  1. Two research articles published in international proceedings listed in a database, e.g. Scopus, ISI, IEEE Explore, etc., or in an international journal.
  2. A module for Thai compound noun extraction.

ประโยชน์ที่คาดว่าจะได้รับ

ช่วยในการพัฒนาโปรแกรมวิเคราะห์คำไทย ซึ่งจะสามารถระบุคำต่าง ๆ ชื่อเฉพาะ ประเภทคำ และคำปรากฏร่วม โมดูลระบุคำประสมจะเป็นส่วนหนึ่งในโปรแกรมใหญ่นี้ ประโยชน์ที่ได้นอกจากเพื่อการประมวลผลภาษาไทยในงานต่างๆ แล้ว จะได้เครื่องมือสำหรับช่วยการเรียนการสอนภาษาไทย การทำพจนานุกรมภาษาไทย

Expected Benefits

It will contribute to the creation of a Thai word analysis program, which is similar to the "WordSketch" program used for analyzing all information relevant to a word. This program will be useful not only for Thai language processing, but also for Thai lexicography and Thai language teaching.