โครงการ Thai National Corpus

หลักการและเหตุผล

เนื่องในโอกาสที่พระบาทสมเด็จพระเจ้าอยู่หัวจะทรงเจริญพระชนมายุ 80 พรรษาในปี พ.ศ. 2550 นี้ ด้วยทรงสนพระราชหฤทัยในเทคโนโลยี ทรงห่วงใยการใช้ภาษาไทยในปัจจุบัน และมีพระราชดำริให้ชาวไทยภาคภูมิใจในภาษาไทยซึ่งเป็นภาษาประจำชาติอยู่เนืองนิตย์ จากการที่พระองค์ได้เสด็จพระราชดำเนินมาที่คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย เพื่อพระราชทานกระแสพระราชดำริในเรื่องปัญหาการใช้คำไทย เมื่อวันที่ 29 กรกฎาคม พ.ศ. 2505 ซึ่งต่อมาในปี 2542 ได้รับการประกาศให้เป็นวันภาษาไทยแห่งชาติ เพื่อเป็นการสนองพระราชประสงค์ให้คนไทยสนใจและใส่ใจกับความลุ่มลึกของภาษาไทยมากขึ้น คณาจารย์กลุ่มหนึ่งจากภาควิชาภาษาศาสตร์ ภาษาไทย ภาษาอังกฤษ คณะอักษรศาสตร์ และจากภาควิชาวิศวกรรมไฟฟ้า คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัยซึ่งเป็นคณาจารย์ที่มีความสนใจเรื่องคลังข้อมูลภาษาไทยและมีความรู้ความเชี่ยวชาญเรื่องภาษาศาสตร์คลังข้อมูล (corpus linguistics) และเรื่องภาษาไทยกับคอมพิวเตอร์ จึงเห็นสมควรจัดสร้างคลังข้อมูลภาษาไทยแห่งชาติ ซึ่งจะเป็นเทคโนโลยีมาใช้เพื่อจัดเก็บและสืบค้นข้อมูลภาษาไทยขนาดใหญ่อย่างเป็นระบบและได้มาตรฐานสากล ทั้งนี้ เพื่อให้คลังข้อมูลภาษาไทยแห่งชาตินี้ได้เป็นแหล่งอ้างอิงสำหรับบุคคลทั่วไป และเป็นการนำเทคโนโลยีมาใช้เพื่อประโยชน์ในการศึกษาภาษาไทยและส่งเสริมให้สาธารณชนได้ตระหนักถึงความสำคัญของภาษาไทยซึ่งเป็นภาษาประจำชาติตามพระราชประสงค์

ในปัจจุบัน เทคโนโลยีได้ถูกนำมาใช้ประโยชน์ในการศึกษาภาษาอย่างกว้างขวาง คลังข้อมูลภาษาขนาดใหญ่ได้กลายเป็นทรัพยากรที่สำคัญในการศึกษาวิจัยภาษาต่างๆ ดังจะเห็นได้จากความตื่นตัวของนานาชาติในการจัดสร้างคลังข้อมูลภาษาขนาดใหญ่ เช่น British National Corpus (100 ล้านคำ แล้วเสร็จในปี ค.ศ. 1994), The Bank of English (ปัจจุบันมีมากกว่า 450 ล้านคำ), American National Corpus (เป้าหมาย 100 ล้านคำ ปัจจุบันเก็บได้ 22 ล้านคำ), Czech National Corpus, Hellenic National Corpus (คลังข้อมูลภาษากรีก ปัจจุบันมีมากกว่า 34 ล้านคำ), National Corpus of Irish (30 ล้านคำ แล้วเสร็จในปี ค.ศ. 1999), Hungarian National Corpus (มากกว่า 150 ล้านคำ), Slovak National Corpus (30 ล้านคำในปัจจุบัน), Croatian National Corpus ฯลฯ คลังข้อมูลภาษาเหล่านี้ถูกนำมาใช้ในงานต่างๆ อาทิ การจัดทำพจนานุกรม เช่น Collin Cobuild Dictionary, Longman Dictionary of Contemporary English, Oxford Dictionary, Cambridge Dictionary ฯลฯ การจัดทำหนังสืออ้างอิงต่างๆ เช่น Longman Grammar of Spoken and Written English, หนังสือในชุด English Vocabulary in Use, Vocabulary in Practice, และ Grammar in Context ของสำนักพิมพ์เคมบริดจ์ และในการศึกษาวิจัยทางภาษาศาสตร์อีกมากมายเหลือคณา

ในส่วนของภาษาไทยนั้น ที่ผ่านมา มีหน่วยงานและสถาบันการศึกษาหลายแห่ง เห็นถึงประโยชน์และได้จัดสร้างคลังข้อมูลภาษาไทยขึ้นเพื่อใช้ในงานต่างๆ ของตน แต่เนื่องจากปัญหาเรื่องสิขสิทธิ์ ทำให้ไม่สามารถเผยแพร่ข้อมูลที่จัดทำได้ มีเพียงคลังข้อมูลออร์คิดของศูนย์เทคโนโลยีอีเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (NECTEC) เท่านั้นที่ได้เผยแพร่แก่สาธารณะ เพราะเป็นข้อมูลที่ไม่มีลิขสิทธิ์ แต่ก็เป็นข้อมูลขนาดเล็ก (4 แสนคำ) และเป็นงานเขียนวิชาการประเภทเดียว นอกจากนี้ ก็มีคลังข้อมูลภาษาไทยที่ภาควิชาภาษาศาสตร์ จุฬาฯ ได้รวบรวมจากแหล่งต่างๆ เช่น หนังสือพิมพ์ สุนทรพจน์ รายงานข่าว บทความวิชาการ นิยายและเรื่องสั้น และเปิดให้บริการสืบค้นข้อมูลภาษาไทยผ่านอินเตอร์เน็ต (http://ling.arts.chula.ac.th/ThaiConc/) แต่ก็เป็นข้อมูลที่จัดเก็บตามสะดวก ไม่ครอบคลุมการใช้ภาษาไทยในลักษณะต่างๆอย่างเป็นระบบ และลิขสิทธิ์ของงานเขียนต่างๆยังคงเป็นของสำนักพิมพ์และผู้เขียน จึงไม่สามารถเผยแพร่ตัวคลังข้อมูลทั้งหมดแก่สาธารณะชนได้ การจัดทำคลังข้อมูลภาษาไทยขนาดใหญ่อย่างเป็นระบบเพื่อเป็นข้อมูลแทนภาษาไทยมาตรฐานในปัจจุบันจึงเป็นสิ่งจำเป็น และจะเป็นการกระตุ้นให้เกิดความตื่นตัวต่อการศึกษาภาษาไทยอย่างกว้างขวาง

อนึ่ง คณะผู้ดำเนินการโครงการนี้ได้นำความขึ้นกราบบังคมทูลสมเด็จพระเทพรัตนราชสุดาฯ สยามบรมราชกุมารีแล้ว ทรงรับโครงการนี้ไว้ในพระราชูปถัมภ์ และได้พระราชทานพระราชานุเคราะห์ทุนทรัพย์และมอบหมายให้ภาควิชาภาษาศาสตร์ คณะอักษรศาสตร์เป็นผู้ดำเนินการหลักของโครงการนี้

 

วัตถุประสงค์

  1. เพื่อร่วมเฉลิมฉลองวโรกาสที่พระบาทสมเด็จพระเจ้าอยู่หัวฯ ทรงเจริญพระชนมพรรษาครบ 80 พรรษาในปี พ.ศ. 2550 และเพื่อเป็นการเฉลิมพระเกียรติพระบาทสมเด็จพระเจ้าอยู่หัวฯ ในวันภาษาไทยแห่งชาติในวันที่ 29 กรกฎาคม 2550
  2. เพื่อจัดสร้างคลังข้อมูลภาษาไทยแห่งชาติที่เป็นเสมือนตัวแทนของภาษาไทยปัจจุบัน (ข้อมูลภาษาเขียน)
  3. เพื่อประชาสัมพันธ์และเผยแพร่คลังข้อมูลภาษาไทยแห่งชาติให้เป็นที่รู้จักและใช้กันอย่างแพร่หลาย
  4. เพื่อส่งเสริมและสนับสนุนการใช้ประโยชน์จากคลังข้อมูลภาษาต่างๆ ทั้งในเชิงวิชาการและในเชิงพาณิชย์