TNHC2
ชุดข้อมูลภาษาไทยก่อนสมัยปัจจุบันจากเว็บไซต์ห้องสมุดดิจิทัลวัชรญาณ
ที่มาของชุดข้อมูล
ชุดข้อมูล TNHC2 เป็นส่วนหนึ่งของโครงการสร้างทรัพยากรดิจิทัลในการศึกษาภาษาและวรรณคดีไทยก่อนปัจจุบัน เฉลิมพระเกียรติสมเด็จพระกนิษฐาธิราชเจ้า กรมสมเด็จพระเทพรัตนราชสุดาฯ สยามบรมราชกุมารี จัดทำโดย หน่วยปฏิบัติการวิจัยภาษาศาสตร์เอเชียตะวันออกเฉียงใต้ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ร่วมกับห้องสมุดดิจิทัลวัชรญาณ เพื่อสร้างแหล่งข้อมูลพื้นฐานสำหรับศึกษาภาษาและวรรณคดีไทยก่อนสมัยปัจจุบันในรูปแบบดิจิทัล อันจะเป็นการส่งเสริมให้การวิจัยภาษาและวรรณคดีไทยก่อนสมัยปัจจุบันตามแนวมนุษยศาสตร์ดิจิทัล (Digital humanities) กว้างขวางขึ้น และช่วยเติมเต็มองค์ความรู้ด้านภาษาและวรรณคดีไทยตามมา
โครงการนี้ต่อยอดจากโครงการคลังข้อมูลภาษาไทยแห่งชาติเชิงประวัติ (TNHC1) ซึ่งได้รับการสนับสนุนจากมูลนิธิมหาจักรีสิรินธรเพื่อคณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย แต่ข้อมูลในชุดข้อมูล TNHC2 นี้เป็นข้อมูลที่จัดทำขึ้นใหม่ทั้งหมด
โครงการนี้ได้รับทุนสนับสนุนจากกองทุนรัชดาภิเษกสมโภช จุฬาลงกรณ์มหาวิทยาลัย บริษัท ไทยเบฟเวอเรจ จำกัด (มหาชน) บมจ. อมรินทร์พริ้นติ้ง แอนด์ พับลิชชิ่ง และมูลนิธิสิริวัฒนภักดี
ข้อมูลทั่วไป
ชุดข้อมูล TNHC2 เป็นชุดข้อมูลตัวบทภาษาไทยก่อนสมัยปัจจุบันทั้งร้อยแก้วและร้อยกรองได้จากทุกส่วนของหนังสือดิจิทัลจำนวนกว่า 270 รายชื่อที่ปรากฏในเว็ปไซต์ห้องสมุดดิจิทัลวัชรญาณ พร้อมทั้งข้อมูลเมทาดาตา (metadata) จำแนกตัวบท ได้แก่ ชื่อชุดหนังสือ ปี พ.ศ. ที่แต่ง ปีที่พิมพ์ ช่วงสมัยที่แต่ง ประเภท(ร้อยแก้ว-ร้อยกรอง) ประเภทเอกสาร ประเภทเนื้อหา ชื่อ เพศ จำนวนของผู้สร้างสรรค์ตัวบท ชื่อต้นฉบับ ชื่อบรรณาธิการ รวมถึงข้อมูลสำคัญอื่นๆ ที่จะช่วยให้ผู้นำตัวบทไปใช้สามารถต่อยอดประเด็นศึกษาต่อได้หลากหลายประเด็น เช่น การเปลี่ยนแปลงทางภาษา วัจนลีลา รวมถึงลักษณะเปรียบเทียบและเปรียบต่างของภาษาต่างทำเนียบ เป็นต้น
ตัวบท เป็นไฟล์ข้อความไม่จัดรูปแบบ (.txt) จัดเก็บเป็น folder แยกตามชื่อต้นฉบับหนังสือ
ข้อมูลเมทาดาตา (metadata) เป็นไฟล์ตารางงาน Excel spreadsheet ประกอบด้วยข้อมูลพื้นฐานของแต่ละตัวบท คำอธิบาย metadata โดยละเอียดอยู่ใน readme.txt ซึ่งแนบไปพร้อมกับไฟล์ชุดข้อมูลที่ให้ดาวน์โหลด
| ขอบเขตข้อมูล | คำอธิบาย |
|---|---|
| รหัส | หมายเลขบ่งชี้ตัวบท ซึ่งจะประกอบไปด้วยตัวเลขจำนวนเต็มบ่งหมายเลขหนังสือหนึ่ง ๆ และตัวเลขทศนิยมบ่งชี้แต่ละตัวบทซึ่งเป็นส่วนของหนังสือนั้น ๆ ที่ถูกจำแนกออกมาเป็นแต่ละไฟล์ .txt |
| ชื่อตัวบท | ชื่อของไฟล์ .txt หนึ่ง ๆ ซึ่งได้มาจากการจำแนกส่วน บท ตอน ของหนังสือทั้งเล่มที่นำมาแปลงเป็นดิจิทัล ข้อสังเกตประการสำคัญ คือ ชื่อของตัวบทอาจมีซ้ำกันในบางกรณี เช่น "คำนำ" ซึ่งเป็นส่วนที่มีทั่วไปในหนังสือต่าง ๆ แต่สิ่งที่ทำให้ตัวบทที่มีชื่อซ้ำกันจำแนกออกจากกันชัด คือ ชื่อชุด หรือชื่อของต้นฉบับ |
| ชื่อชุด | ชื่อกลุ่มของหนังสือที่เผยแพร่ในวาระเดียวกัน หรือเป็นหนังสือกลุ่มที่มีเนื้อหาต่อเนื่องกัน เช่น ชื่อชุด "สาส์นสมเด็จ" ประกอบด้วย "สาส์นสมเด็จ เล่มที่ ..." |
| ปีที่แต่ง | ปีที่ผู้สร้างสรรค์ได้แต่งตัวบทนั้น ๆ ขึ้น ขอบเขตข้อมูล "ปีที่แต่ง" แตกต่างจาก "ปีที่พิมพ์" ในแง่ที่ว่า "ปีที่แต่ง" เป็นปีที่สร้างสรรค์ตัวบทนั้นขึ้น ในขณะที่ "ปีที่พิมพ์" เป็นที่ตัวบทดังกล่าวถูกนำมาพิมพ์เผยแพร่หลังจากถูกสร้างสรรค์ขึ้นแล้ว เช่น จดหมายเหตุพระราชกิจรายวัน พระราชนิพนธ์ในพระบาทสมเด็จพระจุลจอมเกล้าเจ้าอยู่หัว สร้างสรรค์ขึ้นในปี พ.ศ. 2420 แต่ถูกนำมาพิมพ์เผยแพร่ตามมาในปี พ.ศ. 2476 |
| สมัยที่แต่ง | สมัยที่ผู้สร้างสรรค์ได้แต่งตัวบทนั้น ๆ ขึ้น ขอบเขตข้อมูล "สมัยที่แต่ง" เป็นช่วงเวลาที่แต่งเอกสารนั้น ๆ ตามประวัติที่ระบุในหนังสือ หรือตามข้อเท็จจริงที่เป็นที่รับรู้อย่างกว้างขวางและแพร่หลายที่สุด แบ่งประเภทออกเป็น 9 ช่วงเวลา และอีก 2 ประเภทที่ไม่สามารถระบุสมัยที่แต่งลงไปได้ชัด ดังนี้ 1) สุโขทัยและอยุธยาตอนต้น (สมเด็จพระรามาธิบดีที่ 1-สมเด็จพระรามาธิบดีที่ 2) 2) อยุธยาตอนกลาง (สมเด็จพระนเรศวรมหาราช - สมเด็จพระนารายณ์มหาราช) 3) อยุธยาตอนปลาย (สมเด็จพระเจ้าอยู่หัวบรมโกศ) 4) พ.ศ. 2301-2350 5) พ.ศ. 2351-2400 6) พ.ศ. 2401-2450 7) พ.ศ. 2451-2500 8) พ.ศ. 2501-2550 9) พ.ศ. 2551-ปัจจุบัน 10) ไม่ทราบสมัย 11) หลายสมัย ดังนั้น สมัยที่แต่งที่ระบุในเมทาดาตาชุดนี้เป็นเพียงการระบุประวัติการแต่งตามข้อความที่ปรากฏในหนังสือต้นฉบับ ไม่ได้ยืนยันว่าต้องสอดคล้องกับข้อเท็จจริงตามหลักวิชาการที่อาจเกิดขึ้นจากการค้นคว้าใหม่ภายหลัง |
| ลักษณะงานเขียน | ประเภทตัวบทตามลักษณะการมีหรือไม่มีแบบแผนฉันทลักษณ์ ได้แก่ 1) ร้อยแก้ว 2) ร้อยกรอง 3) ผสม |
| เนื้อหา | ประเภทตัวบทตามกลุ่มเนื้อหา ซึ่งใช้ตามประเภทเนื้อหาของงานเขียนที่ปรากฏใน BNC User Reference Guide ข้อ 1.4.2.3 (http://www.natcorp.ox.ac.uk/docs/URG/BNCdes.html#SEL) ได้แก่ 1) เชิงจินตนาการ 2) วิทยาศาสตร์ธรรมชาติและวิทยาศาสตร์บริสุทธิ์ 3) วิทยาศาสตร์ประยุกต์ 4) สังคมศาสตร์ 5) เหตุการณ์รอบโลก/ประวัติศาสตร์ 6) การค้าและเงิน 7) ศิลปะ 8) ความเชื่อและความคิด 9) สันทนาการ |
| ประเภท | ประเภทตัวบทตามรูปแบบของงานเขียน 6 ประเภทหลัก ซึ่งใช้ตามประเภทที่คลังข้อมูลภาษาไทยแห่งชาติ (TNC - THAI NATIONAL CORPUS) ในพระราชูปถัมภ์สมเด็จพระเทพรัตนราชสุดาฯ สยามบรมราชกุมารี จัดระเบียบและกำหนดตาม BNC การจำแนกนี้มีเค้าโครงมาจากเกณฑ์การการจำแนกของ Dave Lee (https://lexically.net/wordsmith/Handling_BNC/dave_lees_class_codes.html) ได้แก่ 1) FICTION (เรื่องแต่ง) ซึ่งระบุประเภทย่อยเป็น W_fict_drama, W_fict_poetry, W_fict_prose_novel หรือ W_fict_prose_shortstory 2) NEWSPAPER (หนังสือพิมพ์) ซึ่งระบุประเภทย่อยอย่างใดอย่างหนึ่งเป็น W_newsp_editorial หรือ W_newsp_report 3) NON-ACADEMIC (เอกสารที่ไม่เป็นวิชาการ) ซึ่งระบุประเภทย่อยอย่างใดอย่างหนึ่งเป็น W_non_ac_humanities_arts, W_non_ac_medicine, W_non_ac_nat_science, W_non_ac_polit_law_edu, W_non_ac_soc_science หรือ W_non_ac_tech_engin 4) ACADEMIC (เอกสารที่เป็นวิชาการ) ซึ่งระบุประเภทย่อยอย่างใดอย่างหนึ่งเป็น W_ac_humanities_arts, W_ac_medicine, W_ac_nat_science, W_ac_polit_law_edu, W_ac_soc_science หรือ W_ac_tech_engin 5) LAW (กฎหมาย) ซึ่งไม่มีประเภทจำแนกย่อย และระบุตามประเภทหลัก ได้แก่ W_law 6) MISC (เรื่องเบ็ดเตล็ด) ซึ่งระบุประเภทย่อยอย่างใดอย่างหนึ่งเป็น W_admin, W_advert, W_biography, W_blog, W_commerce, W_email, W_essay_school, W_essay_univ, W_institut_doc, W_instructional, W_letters_personal, W_letters_prof, W_misc, W_pop_lore, W_religion หรือ W_speech การจำแนกประเภทให้สอดคล้องกับที่ TNC กำหนดเป็นหลักนี้เป็นไปตามข้อคำนึงประการสำคัญ คือ เพื่อให้โครงสร้างการจำแนกต่อเนื่องสอดคล้องเป็นแบบแผนเดียวกันกับข้อมูลที่ได้จาก TNC ซึ่งจะเอื้อให้สะดวกต่อการนำมาจัดทำคลังข้อมูลที่ศึกษาในประเด็นวิจัยข้ามสมัย |
| ชื่อผู้สร้างสรรค์ | นามของผู้สร้างสรรค์ ซึ่งจะระบุเป็นชื่อบุคคลหากทราบ และระบุเป็นองค์กรหากไม่ทราบแต่ปรากฏว่าองค์กรนั้นเป็นหน่วยงานที่นำมาชำระและ/หรือเผยแพร่ ในกรณีที่ไม่ทราบทั้ง 2 ส่วน จะระบุข้อมูลเป็น "ไม่ปรากฏ" |
| เพศของผู้สร้างสรรค์ | เพศกำเนิดของผู้สร้างสรรค์ตัวบทนั้น ๆ ซึ่งเป็นคนละส่วนกับเพศสภาพและเพศวิถี ได้แก่ 1) ชาย 2) หญิง 3) ไม่ทราบ ในกรณีที่มีผู้แต่งชายและหญิงรวมกันจำนวน 2 คน ในขอบเขตข้อมูลนี้จะพิจารณาให้เป็น “ไม่ทราบ” |
| ประเภทของผู้สร้างสรรค์ | ข้อมูลผู้สร้างสรรค์ตัวบทตามจำนวนหรือกลุ่ม ได้แก่ 1) คนเดียว 2) หลายคน 3) องค์กร 4) ไม่ทราบ ในกรณีที่มีผู้แต่งชายและหญิงรวมกันจำนวน 2 คน ในขอบเขตข้อมูลนี้จะพิจารณาให้เป็น “องค์กร” |
| ชื่อต้นฉบับ | ชื่อของหนังสือซึ่งเป็นเล่มต้นฉบับที่นำมาแปลงเป็นไฟล์ดิจิทัล |
| ปีที่พิมพ์ | ปีที่พิมพ์ตัวเล่มต้นฉบับ |
| ผู้เผยแพร่ | บุคคลหรือหน่วยงานที่มีบทบาทในการทำให้หนังสือดังกล่าวเป็นที่รู้จักโดยสาธารณะ |
| ชื่อบรรณาธิการ | บุคคลผู้ทำหน้าที่เป็นผู้รับผิดชอบงานบรรณาธิการกิจในการจัดทำต้นฉบับ |
| ข้อมูลสำคัญอื่น ๆ | ข้อมูลที่อยู่นอกเหนือจากขอบเขตข้อมูลที่ระบุ แต่เป็นข้อมูลสำคัญที่ควรระบุเพิ่มเติม เช่น ข้อมูลโอกาสที่จัดพิมพ์ต้นฉบับดังกล่าว อย่างกรณีเป็นที่ระลึกในงานบำเพ็ญกุศลศพ หรือข้อมูลข้อถกเถียงเกี่ยวกับข้อสันนิษฐานประวัติการแต่งตัวบท |
หากท่านใช้ประโยชน์จากชุดข้อมูล TNHC2 ในผลงานวิชาการหรือผลงานใดๆ กรุณาอ้างอิง:
พิทยาวัฒน์ พิทยาภรณ์, มณฑล กาญจโนฬาร, สัณห์ธวัช ธัญวงษ์ และกานต์วิรุช นุชประหาร. (2566). ชุดข้อมูล TNHC2. สืบค้นเมื่อ วัน เดือน ปี จาก URL
ขอขอบพระคุณ
- ผู้สนับสนุน ให้คำปรึกษา และประสานงานเรื่องการดำเนินการจัดทำชุดข้อมูล
- คุณนิติกร กรัยวิเชียร ผู้อำนวยการโครงการส่งเสริมศิลปวัฒนธรรม บริษัท ไทยเบฟ
เวอเรจ จำกัด (มหาชน) - ศ. กิตติคุณ ดร.ปราณี กุลละวณิชย์
- ผศ. ดร.ประพจน์ อัศววิรุฬหการ
- รศ. ดร.วิโรจน์ อรุณมานะกุล
- คุณระริน อุทกะพันธุ์ ปัญจรุ่งโรจน์ กรรมการผู้อำนวยการใหญ่ บมจ. อมรินทร์พริ้นติ้ง แอนด์ พับลิชชิ่ง
- หม่อมหลวงลือศักดิ์ จักรพันธุ์ กรรมการผู้จัดการบจก. อมรินทร์ บุ๊ค เซ็นเตอร์
- คุณกฤตภาส ฐิติชาญชัยกุล ผู้จัดการฝ่าย E-Commerce บจก. อมรินทร์ บุ๊ค เซ็นเตอร์
- คุณกฤตติกา ทนุกูลเกียรติ
- คุณทัศพร สนิธวรรณะ
- ฝ่ายวิจัย คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
- ฝ่ายคลังและพัสดุ คณะอักษรศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย
- คุณนิติกร กรัยวิเชียร ผู้อำนวยการโครงการส่งเสริมศิลปวัฒนธรรม บริษัท ไทยเบฟ
- ผู้ร่วมจัดทำชุดข้อมูล
- TNHC1
- รศ. ดร. ทรงพันธ์ เจิมประยงค์
- รศ. ดร. ธานีรัตน์ จัตุทะศรี
- ผศ. ดร.วิภาส โพธิแพทย์
- อาจารย์ ดร.จักรภพ เอี่ยมดะนุช
- อาจารย์ ดร.ธนศักดิ์ ศิริคะเณรัตน์
- อาจารย์ ดร.วรรณภา สรรพสิทธิ์
- อาจารย์นพรัฐ เสน่ห์
- อาจารย์พลวัฒน์ ไหลมนู
- คุณนริศ เจรีรัตน์
- คุณพงศ์พัฒน์ เมธีธรรมวัฒน์
- คุณภัคจิรา ธรรมานุธรรม
- คุณสิรีมาศ มาศพงศ์
- TNHC2
- คุณธันยบูรณ์ ธัญลักษณ์มะระ
- คุณบวรภัค อิทธิเสรีกุล
- คุณวสุธร อภิวัฒน์พงค์
- คุณสุพิชญา วรธำรง
- คุณอุรชา ตติยะนันท์
- TNHC1
