บรรยายหลัก

ภาษาศาสตร์คอมพิวเตอร์ : ปฐมบทใหม่

รองศาสตราจารย์ ดร.วิโรจน์ อรุณมานะกุล

​​​ความสนใจทำให้คอมพิวเตอร์มีความสามารถทางภาษาเหมือนมนุษย์เป็นความฝันที่เริ่มมาตั้งแต่ในยุคแรก ๆ ที่มีการสร้างคอมพิวเตอร์ขึ้นมา  แนวคิดและวิธีการที่ใช้มีการเปลี่ยนแปลงไปตามกระแสในแต่ละช่วงเวลา  ตัวอย่างที่แสดงให้เห็นการเปลี่ยนแปลงและความขึ้นลงของงานภาษาศาสตร์คอมพิวเตอร์ได้ชัดเจน คือ การแปลภาษาด้วยเครื่อง  ในยุคเริ่มแรกนั้น  ความคิดเรื่องการมองหากฎเพื่อสอนคอมพิวเตอร์เป็นกระแสหลักของงานที่เรียนกว่า rule-based MT  การแปลภาษาต้องอาศัยนักภาษาศาสตร์ช่วยในการวิเคราะห์ทั้งภาษาต้นทางและปลายทางเพื่อหากฎโครงสร้างภาษา เมื่อพบว่าความซับซ้อนและกำกวมในภาษามีมากเกินจะจัดการด้วยกฎอย่างมีประสิทธิภาพ  งานทางด้านนี้ก็ซบเซาลง  ต่อมาจึงมีความพยายามหาความรู้จากข้อมูลจริงมากขึ้น มีการใช้ข้อมูลเป็นตัวอย่างเพื่อสกัดเอากฎหรือรูปแบบการแปลแต่ละส่วนเกิดแนวคิดแบบ example-based MT และเมื่อมีการใช้ข้อมูลภาษาจริงมากขึ้น  การแก้ปัญหาความกำกวมด้วยการใช้สถิติหรือความน่าจะเป็นที่ประมาณได้จากคลังข้อมูลภาษาขนาดใหญ่ก็เข้ามาเป็นกระแสหลักแทนเกิดเป็น statistical MT  จากการใช้คลังข้อมูลภาษาขนาดใหญ่นี่เองที่แนวคิดการสร้างแบบจำลองต่าง ๆ โดยให้เครื่องเรียนรู้เองจากข้อมูล  เกิดเป็นกระแส machine learning เพื่อแก้ปัญหาการประมวลผลภาษาด้วยวิธีการต่าง ๆ เช่น naïve Bayes, decision tress, support vector machine, conditional random fields จนมาเป็น neural network หรือ deep learning จนประสบความสำเร็จอย่างสูงในการประมวลผลภาษาด้านต่าง ๆ  การแปลภาษาเองก็หันมารับกระแสนี้จนเกิดเป็น neural MT ที่ให้ผลการแปลที่ดีขึ้นมากในปัจจุบัน ความสำเร็จของการใช้ deep learning ไม่เพียงก่อให้เกิดความตื่นตัวในงานด้านปัญญาประดิษฐ์  ยังถือเป็นปฐมบทใหม่ของภาษาศาสตร์คอมพิวเตอร์ที่เริ่มเห็นความเป็นไปได้ว่าคอมพิวเตอร์จะสามารถเรียนรู้และเข้าใจภาษามนุษย์ได้เองมากขึ้น และจะเกิดการเปลี่ยนแปลงทางการศึกษาภาษาศาสตร์ขนานใหญ่

 

อิทธิพลภาษาเขมรในภาษาไทย: การยืมหรือการแทรกแซง

ผู้ช่วยศาสตราจารย์ ดร.พิทยาวัฒน์ พิทยาภรณ์

เป็นที่ทราบกันดีว่าภาษาไทยได้รับอิทธิพลภาษาเขมรทั้งในระดับคำศัพท์ เสียง และไวยากรณ์ นักวิจัยส่วนใหญ่ เช่น กาญจนา นาคสกุล (Nacasakul 1962, 1971), อุไรศรี วรศะรินท์ (Varasarin 1984) Huffman (1986) และ Suthiwan & Tadmor (2009) เชื่อว่าภาษาไทยได้รับอิทธิพลภาษาเขมรผ่านการยืม (borrowing) อันเนื่องมาจากอิทธิพลทางศาสนา วัฒนธรรม และวรรณคดี อย่างไรก็ตาม วิไลวรรณ ขนิษฐานันท์ (2001; Khanittanan 2004) เสนอว่าอิทธิพลภาษาเขมรในไทยเกิดจากการแทรกแซง (interference) ของภาษาเขมรซึ่งเป็นภาษาพื้นเดิม (substrate language) ของกลุ่มประชาการขนาดใหญ่ที่เปลี่ยนภาษา (language shift) จากภาษาเขมรมาพูดภาษาไทยเป็นภาษาแม่ในสมัยอยุธยาตอนต้น อย่างไรก็ตาม ยังไม่มีงานวิจัยใดที่นำเสนอหลักฐานที่ใช้ตัดสินได้ชัดเจนว่าอิทธิพลของภาษาเขมรในภาษาไทยเป็นผลจากการยืมหรือการแทรกแซง งานวิจัยนี้จึงศึกษาภาษาไทยในจารึกสุโขทัยและอยุธยาจากมุมมองของทฤษฎีการสัมผัสภาษา (Thomason and Kaufman 1988; Sankoff 2001) และเสนอว่าอิทธิพลของภาษาเขมรในภาษาไทยสมัยเก่าเกิดจากการยืม ดังจะเห็นได้จากการที่ภาษาไทยสมัยเก่ามีคำศัพท์ภาษาเขมรในภาษาไทยจำนวนมากแต่แทบไม่มีลักษณะทางเสียงที่ได้รับจากภาษาเขมรเลย ที่สำคัญ การเปลี่ยนแปลงเสียงที่เกิดในภาษาไทยสมัยเก่าและรูปแบบการปรับเปลี่ยนคำเขมรเมื่อเข้ามาในภาษาไทยสมัยเก่าล้วนแต่มีลักษณะตรงข้ามกับสิ่งที่ควรพบในสถานการณ์การเปลี่ยนภาษาทั้งสิ้น