Center of Excellence in Southeast Asian Linguistics

TNHC2

ชุดข้อมูลภาษาไทยก่อนสมัยปัจจุบันจากเว็บไซต์ห้องสมุดดิจิทัลวัชรญาณ

ที่มาของชุดข้อมูล

 

ชุดข้อมูล TNHC2 เป็นส่วนหนึ่งของโครงการสร้างทรัพยากรดิจิทัลในการศึกษาภาษาและวรรณคดีไทยก่อนปัจจุบัน เฉลิมพระเกียรติสมเด็จพระกนิษฐาธิราชเจ้า กรมสมเด็จพระเทพรัตนราชสุดาฯ สยามบรมราชกุมารี จัดทำโดย หน่วยปฏิบัติการวิจัยภาษาศาสตร์เอเชียตะวันออกเฉียงใต้ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ร่วมกับห้องสมุดดิจิทัลวัชรญาณ  เพื่อสร้างแหล่งข้อมูลพื้นฐานสำหรับศึกษาภาษาและวรรณคดีไทยก่อนสมัยปัจจุบันในรูปแบบดิจิทัล อันจะเป็นการส่งเสริมให้การวิจัยภาษาและวรรณคดีไทยก่อนสมัยปัจจุบันตามแนวมนุษยศาสตร์ดิจิทัล (Digital humanities) กว้างขวางขึ้น และช่วยเติมเต็มองค์ความรู้ด้านภาษาและวรรณคดีไทยตามมา

โครงการนี้ต่อยอดจากโครงการคลังข้อมูลภาษาไทยแห่งชาติเชิงประวัติ (TNHC1) ซึ่งได้รับการสนับสนุนจากมูลนิธิมหาจักรีสิรินธรเพื่อคณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย แต่ข้อมูลในชุดข้อมูล TNHC2 นี้เป็นข้อมูลที่จัดทำขึ้นใหม่ทั้งหมด

โครงการนี้ได้รับทุนสนับสนุนจากกองทุนรัชดาภิเษกสมโภช จุฬาลงกรณ์มหาวิทยาลัย บริษัท ไทยเบฟเวอเรจ จำกัด (มหาชน) บมจ. อมรินทร์พริ้นติ้ง แอนด์ พับลิชชิ่ง และมูลนิธิสิริวัฒนภักดี

ข้อมูลทั่วไป

 

ชุดข้อมูล TNHC2 เป็นชุดข้อมูลตัวบทภาษาไทยก่อนสมัยปัจจุบันทั้งร้อยแก้วและร้อยกรองได้จากทุกส่วนของหนังสือดิจิทัลจำนวนกว่า 270 รายชื่อที่ปรากฏในเว็ปไซต์ห้องสมุดดิจิทัลวัชรญาณ พร้อมทั้งข้อมูลเมทาดาตา (metadata) จำแนกตัวบท ได้แก่ ชื่อชุดหนังสือ ปี พ.ศ. ที่แต่ง ปีที่พิมพ์ ช่วงสมัยที่แต่ง ประเภท(ร้อยแก้ว-ร้อยกรอง) ประเภทเอกสาร ประเภทเนื้อหา ชื่อ เพศ จำนวนของผู้สร้างสรรค์ตัวบท ชื่อต้นฉบับ ชื่อบรรณาธิการ รวมถึงข้อมูลสำคัญอื่นๆ ที่จะช่วยให้ผู้นำตัวบทไปใช้สามารถต่อยอดประเด็นศึกษาต่อได้หลากหลายประเด็น เช่น การเปลี่ยนแปลงทางภาษา วัจนลีลา รวมถึงลักษณะเปรียบเทียบและเปรียบต่างของภาษาต่างทำเนียบ เป็นต้น

ตัวบท เป็นไฟล์ข้อความไม่จัดรูปแบบ (.txt) จัดเก็บเป็น folder แยกตามชื่อต้นฉบับหนังสือ

ข้อมูลเมทาดาตา (metadata) เป็นไฟล์ตารางงาน Excel spreadsheet ประกอบด้วยข้อมูลพื้นฐานของแต่ละตัวบท คำอธิบาย metadata โดยละเอียดอยู่ใน readme.txt ซึ่งแนบไปพร้อมกับไฟล์ชุดข้อมูลที่ให้ดาวน์โหลด

ขอบเขตข้อมูลคำอธิบาย
รหัสหมายเลขบ่งชี้ตัวบท ซึ่งจะประกอบไปด้วยตัวเลขจำนวนเต็มบ่งหมายเลขหนังสือหนึ่ง ๆ และตัวเลขทศนิยมบ่งชี้แต่ละตัวบทซึ่งเป็นส่วนของหนังสือนั้น ๆ ที่ถูกจำแนกออกมาเป็นแต่ละไฟล์ .txt
ชื่อตัวบทชื่อของไฟล์ .txt หนึ่ง ๆ ซึ่งได้มาจากการจำแนกส่วน บท ตอน ของหนังสือทั้งเล่มที่นำมาแปลงเป็นดิจิทัล ข้อสังเกตประการสำคัญ คือ ชื่อของตัวบทอาจมีซ้ำกันในบางกรณี เช่น "คำนำ" ซึ่งเป็นส่วนที่มีทั่วไปในหนังสือต่าง ๆ แต่สิ่งที่ทำให้ตัวบทที่มีชื่อซ้ำกันจำแนกออกจากกันชัด คือ ชื่อชุด หรือชื่อของต้นฉบับ
ชื่อชุดชื่อกลุ่มของหนังสือที่เผยแพร่ในวาระเดียวกัน หรือเป็นหนังสือกลุ่มที่มีเนื้อหาต่อเนื่องกัน เช่น ชื่อชุด "สาส์นสมเด็จ" ประกอบด้วย "สาส์นสมเด็จ เล่มที่ ..."
ปีที่แต่งปีที่ผู้สร้างสรรค์ได้แต่งตัวบทนั้น ๆ ขึ้น ขอบเขตข้อมูล "ปีที่แต่ง" แตกต่างจาก "ปีที่พิมพ์" ในแง่ที่ว่า "ปีที่แต่ง" เป็นปีที่สร้างสรรค์ตัวบทนั้นขึ้น ในขณะที่ "ปีที่พิมพ์" เป็นที่ตัวบทดังกล่าวถูกนำมาพิมพ์เผยแพร่หลังจากถูกสร้างสรรค์ขึ้นแล้ว เช่น จดหมายเหตุพระราชกิจรายวัน พระราชนิพนธ์ในพระบาทสมเด็จพระจุลจอมเกล้าเจ้าอยู่หัว สร้างสรรค์ขึ้นในปี พ.ศ. 2420 แต่ถูกนำมาพิมพ์เผยแพร่ตามมาในปี พ.ศ. 2476
สมัยที่แต่งสมัยที่ผู้สร้างสรรค์ได้แต่งตัวบทนั้น ๆ ขึ้น ขอบเขตข้อมูล "สมัยที่แต่ง" เป็นช่วงเวลาที่แต่งเอกสารนั้น ๆ ตามประวัติที่ระบุในหนังสือ หรือตามข้อเท็จจริงที่เป็นที่รับรู้อย่างกว้างขวางและแพร่หลายที่สุด แบ่งประเภทออกเป็น 9 ช่วงเวลา และอีก 2 ประเภทที่ไม่สามารถระบุสมัยที่แต่งลงไปได้ชัด ดังนี้

1) สุโขทัยและอยุธยาตอนต้น (สมเด็จพระรามาธิบดีที่ 1-สมเด็จพระรามาธิบดีที่ 2)
2) อยุธยาตอนกลาง (สมเด็จพระนเรศวรมหาราช - สมเด็จพระนารายณ์มหาราช)
3) อยุธยาตอนปลาย (สมเด็จพระเจ้าอยู่หัวบรมโกศ)
4) พ.ศ. 2301-2350
5) พ.ศ. 2351-2400
6) พ.ศ. 2401-2450
7) พ.ศ. 2451-2500
8) พ.ศ. 2501-2550
9) พ.ศ. 2551-ปัจจุบัน
10) ไม่ทราบสมัย
11) หลายสมัย


ดังนั้น สมัยที่แต่งที่ระบุในเมทาดาตาชุดนี้เป็นเพียงการระบุประวัติการแต่งตามข้อความที่ปรากฏในหนังสือต้นฉบับ ไม่ได้ยืนยันว่าต้องสอดคล้องกับข้อเท็จจริงตามหลักวิชาการที่อาจเกิดขึ้นจากการค้นคว้าใหม่ภายหลัง
ลักษณะงานเขียนประเภทตัวบทตามลักษณะการมีหรือไม่มีแบบแผนฉันทลักษณ์ ได้แก่
1) ร้อยแก้ว
2) ร้อยกรอง
3) ผสม
เนื้อหาประเภทตัวบทตามกลุ่มเนื้อหา ซึ่งใช้ตามประเภทเนื้อหาของงานเขียนที่ปรากฏใน BNC User Reference Guide ข้อ 1.4.2.3 (http://www.natcorp.ox.ac.uk/docs/URG/BNCdes.html#SEL) ได้แก่

1) เชิงจินตนาการ
2) วิทยาศาสตร์ธรรมชาติและวิทยาศาสตร์บริสุทธิ์
3) วิทยาศาสตร์ประยุกต์
4) สังคมศาสตร์
5) เหตุการณ์รอบโลก/ประวัติศาสตร์
6) การค้าและเงิน
7) ศิลปะ
8) ความเชื่อและความคิด
9) สันทนาการ
ประเภทประเภทตัวบทตามรูปแบบของงานเขียน 6 ประเภทหลัก ซึ่งใช้ตามประเภทที่คลังข้อมูลภาษาไทยแห่งชาติ (TNC - THAI NATIONAL CORPUS) ในพระราชูปถัมภ์สมเด็จพระเทพรัตนราชสุดาฯ สยามบรมราชกุมารี จัดระเบียบและกำหนดตาม BNC การจำแนกนี้มีเค้าโครงมาจากเกณฑ์การการจำแนกของ Dave Lee (https://lexically.net/wordsmith/Handling_BNC/dave_lees_class_codes.html) ได้แก่

1) FICTION (เรื่องแต่ง) ซึ่งระบุประเภทย่อยเป็น W_fict_drama, W_fict_poetry, W_fict_prose_novel หรือ W_fict_prose_shortstory
2) NEWSPAPER (หนังสือพิมพ์) ซึ่งระบุประเภทย่อยอย่างใดอย่างหนึ่งเป็น W_newsp_editorial หรือ W_newsp_report
3) NON-ACADEMIC (เอกสารที่ไม่เป็นวิชาการ) ซึ่งระบุประเภทย่อยอย่างใดอย่างหนึ่งเป็น W_non_ac_humanities_arts, W_non_ac_medicine, W_non_ac_nat_science, W_non_ac_polit_law_edu, W_non_ac_soc_science หรือ W_non_ac_tech_engin
4) ACADEMIC (เอกสารที่เป็นวิชาการ) ซึ่งระบุประเภทย่อยอย่างใดอย่างหนึ่งเป็น W_ac_humanities_arts, W_ac_medicine, W_ac_nat_science, W_ac_polit_law_edu, W_ac_soc_science หรือ W_ac_tech_engin
5) LAW (กฎหมาย) ซึ่งไม่มีประเภทจำแนกย่อย และระบุตามประเภทหลัก ได้แก่ W_law
6) MISC (เรื่องเบ็ดเตล็ด) ซึ่งระบุประเภทย่อยอย่างใดอย่างหนึ่งเป็น W_admin, W_advert, W_biography, W_blog, W_commerce, W_email, W_essay_school, W_essay_univ, W_institut_doc, W_instructional, W_letters_personal, W_letters_prof, W_misc, W_pop_lore, W_religion หรือ W_speech

การจำแนกประเภทให้สอดคล้องกับที่ TNC กำหนดเป็นหลักนี้เป็นไปตามข้อคำนึงประการสำคัญ คือ เพื่อให้โครงสร้างการจำแนกต่อเนื่องสอดคล้องเป็นแบบแผนเดียวกันกับข้อมูลที่ได้จาก TNC ซึ่งจะเอื้อให้สะดวกต่อการนำมาจัดทำคลังข้อมูลที่ศึกษาในประเด็นวิจัยข้ามสมัย
ชื่อผู้สร้างสรรค์นามของผู้สร้างสรรค์ ซึ่งจะระบุเป็นชื่อบุคคลหากทราบ และระบุเป็นองค์กรหากไม่ทราบแต่ปรากฏว่าองค์กรนั้นเป็นหน่วยงานที่นำมาชำระและ/หรือเผยแพร่ ในกรณีที่ไม่ทราบทั้ง 2 ส่วน จะระบุข้อมูลเป็น "ไม่ปรากฏ"
เพศของผู้สร้างสรรค์เพศกำเนิดของผู้สร้างสรรค์ตัวบทนั้น ๆ ซึ่งเป็นคนละส่วนกับเพศสภาพและเพศวิถี ได้แก่

1) ชาย
2) หญิง
3) ไม่ทราบ

ในกรณีที่มีผู้แต่งชายและหญิงรวมกันจำนวน 2 คน ในขอบเขตข้อมูลนี้จะพิจารณาให้เป็น “ไม่ทราบ”
ประเภทของผู้สร้างสรรค์ข้อมูลผู้สร้างสรรค์ตัวบทตามจำนวนหรือกลุ่ม ได้แก่

1) คนเดียว
2) หลายคน
3) องค์กร
4) ไม่ทราบ

ในกรณีที่มีผู้แต่งชายและหญิงรวมกันจำนวน 2 คน ในขอบเขตข้อมูลนี้จะพิจารณาให้เป็น “องค์กร”
ชื่อต้นฉบับชื่อของหนังสือซึ่งเป็นเล่มต้นฉบับที่นำมาแปลงเป็นไฟล์ดิจิทัล
ปีที่พิมพ์ปีที่พิมพ์ตัวเล่มต้นฉบับ
ผู้เผยแพร่บุคคลหรือหน่วยงานที่มีบทบาทในการทำให้หนังสือดังกล่าวเป็นที่รู้จักโดยสาธารณะ
ชื่อบรรณาธิการบุคคลผู้ทำหน้าที่เป็นผู้รับผิดชอบงานบรรณาธิการกิจในการจัดทำต้นฉบับ
ข้อมูลสำคัญอื่น ๆข้อมูลที่อยู่นอกเหนือจากขอบเขตข้อมูลที่ระบุ แต่เป็นข้อมูลสำคัญที่ควรระบุเพิ่มเติม เช่น ข้อมูลโอกาสที่จัดพิมพ์ต้นฉบับดังกล่าว อย่างกรณีเป็นที่ระลึกในงานบำเพ็ญกุศลศพ หรือข้อมูลข้อถกเถียงเกี่ยวกับข้อสันนิษฐานประวัติการแต่งตัวบท

หากท่านใช้ประโยชน์จากชุดข้อมูล TNHC2 ในผลงานวิชาการหรือผลงานใดๆ กรุณาอ้างอิง:

 

พิทยาวัฒน์ พิทยาภรณ์, มณฑล กาญจโนฬาร, สัณห์ธวัช ธัญวงษ์ และกานต์วิรุช นุชประหาร. (2566). ชุดข้อมูล TNHC2. สืบค้นเมื่อ วัน เดือน ปี จาก URL

ขอขอบพระคุณ

 

  1. ผู้สนับสนุน ให้คำปรึกษา และประสานงานเรื่องการดำเนินการจัดทำชุดข้อมูล
    • คุณนิติกร กรัยวิเชียร ผู้อำนวยการโครงการส่งเสริมศิลปวัฒนธรรม บริษัท ไทยเบฟ
      เวอเรจ จำกัด (มหาชน)
    • ศ. กิตติคุณ ดร.ปราณี กุลละวณิชย์
    • ผศ. ดร.ประพจน์ อัศววิรุฬหการ
    • รศ. ดร.วิโรจน์ อรุณมานะกุล
    • คุณระริน อุทกะพันธุ์ ปัญจรุ่งโรจน์ กรรมการผู้อำนวยการใหญ่ บมจ. อมรินทร์พริ้นติ้ง แอนด์ พับลิชชิ่ง
    • หม่อมหลวงลือศักดิ์ จักรพันธุ์ กรรมการผู้จัดการบจก. อมรินทร์ บุ๊ค เซ็นเตอร์
    • คุณกฤตภาส ฐิติชาญชัยกุล ผู้จัดการฝ่าย E-Commerce บจก. อมรินทร์ บุ๊ค เซ็นเตอร์
    • คุณกฤตติกา ทนุกูลเกียรติ
    • คุณทัศพร สนิธวรรณะ
    • ฝ่ายวิจัย คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
    • ฝ่ายคลังและพัสดุ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย

 

  1. ผู้ร่วมจัดทำชุดข้อมูล
    • TNHC1
      • รศ. ดร. ทรงพันธ์ เจิมประยงค์
      • รศ. ดร. ธานีรัตน์ จัตุทะศรี
      • ผศ. ดร.วิภาส โพธิแพทย์
      • อาจารย์ ดร.จักรภพ เอี่ยมดะนุช
      • อาจารย์ ดร.ธนศักดิ์ ศิริคะเณรัตน์
      • อาจารย์ ดร.วรรณภา สรรพสิทธิ์
      • อาจารย์นพรัฐ เสน่ห์
      • อาจารย์พลวัฒน์ ไหลมนู
      • คุณนริศ เจรีรัตน์
      • คุณพงศ์พัฒน์ เมธีธรรมวัฒน์
      • คุณภัคจิรา ธรรมานุธรรม
      • คุณสิรีมาศ มาศพงศ์
    • TNHC2
      • คุณธันยบูรณ์ ธัญลักษณ์มะระ
      • คุณบวรภัค อิทธิเสรีกุล
      • คุณวสุธร อภิวัฒน์พงค์
      • คุณสุพิชญา วรธำรง
      • คุณอุรชา ตติยะนันท์

Last Update

24 November, 2023