โครงการนี้มีเป้าหมาย คือ สร้างคลังข้อมูลภาษาไทยมาตรฐาน โดยขั้นแรกจำกัดเฉพาะภาษาเขียน มีการแยกคำและมีการกำกับข้อมูลตามมาตรฐานที่กำหนดโดย TEI (Text Encoding Initiatives) และ CES (Corpus Encoding Standard) พร้อมทั้งกำกับข้อมูลต่างๆเกี่ยวกับงานเขียน เช่น ข้อมูลผู้เขียนและข้อมูลบรรณานุกรมสำหรับแต่ละงานเขียนด้วย การออกแบบคลังข้อมูลให้เป็นตัวแทนภาษาไทยทั้งหมดนั้นเป็นเรื่องสำคัญ แต่ก็ไม่มีใครทราบชัดเจนว่าประเภทของงานเขียนทั้งหมดที่มีอยู่มีอะไรบ้าง หรือควรใช้เกณฑ์อะไรในการคัดเลือกงานเขียน ถ้ามองจากด้านการผลิต ก็อาจจะเลือกดูจากรายการหนังสือที่มี การตีพิมพ์เผยแพร่มาก ถ้ามองจากด้านการบริโภค ก็อาจดูจากรายการหนังสือที่มียอดจำหน่ายสูงหรือมีการยืมจากห้องสมุดมาก เป็นต้น ในที่นี้ จึงเลือกใช้โครงสร้างแบบที่ขนานไปกับโครงสร้างของ BNC (British National Corpus) ด้วยเหตุผลว่าจะทำให้สามารถศึกษา เปรียบเทียบความเหมือนหรือความต่างระหว่างภาษาไทยและภาษาอังกฤษได้ในอนาคต แต่ก็อาจจะมีการปรับให้เหมาะสมกับลักษณะเฉพาะของงานเขียนภาษาไทย เกณฑ์ที่ใช้ในที่นี้จึงคล้ายคลึงกับเกณฑ์ที่ BNC ใช้ โดยใช้เกณฑ์ในการควบคุมการคัดเลือกข้อมูลภาษาเขียนคือเนื้อหา (domain) เวลาที่สร้างงานเขียน (time) และสื่อที่ใช้นำเสนอ (medium) และเพื่อให้ได้ความหลากหลายของงานเขียนแต่ละงานเขียนที่เลือกมาจะสุ่มข้อความต่อเนื่องมาไม่เกิน 40,000 คำ
เนื้อหา : เป็นเกณฑ์ที่ใช้เพื่อแยกประเภทของงานเขียน โดยกำหนดให้ 75% ของงานเขียนเป็นแนวด้านสาระ (informative) ซึ่งเลือกจากสาขาต่างๆเช่น วิทยาศาสตร์ วิทยาศาสตร์ประยุกต์ สังคมศาสตร์ ศิลปะและมนุษยศาสตร์ ศาสนาและความเชื่อ การเงินการพาณิชย์ เรื่องระหว่างประเทศ นันทนาการ และอีก 25% ของงานเขียนเป็นงานประพันธ์ (imaginative) ซึ่งคืองานด้านวรรณกรรมและบทกวี
สื่อ : เป็นเกณฑ์ที่ใช้เพื่อแยกประเภทของงานเขียนที่ปรากฏในสื่อประเภทต่างๆ โดยกำหนดให้ 60% ของงานเขียนเป็นหนังสือ 25% เป็นวารสาร และหนังสือพิมพ์ อีก 5-10% มาจากสิ่งพิมพ์อื่นๆ เช่น แผ่นพับ แผ่นโฆษณา อีก 5-10% มาจากงานเขียนที่ไม่ตีพิมพ์ เช่น จดหมายส่วนตัว บันทึกประจำวัน เรียงความ และบันทึกช่วยจำ และอีกน้อยกว่า 5% เก็บจากงานเขียนเผยแพร่บนอินเทอร์เน็ต
เวลา : เป็น เกณฑ์ที่ใช้เพื่อเก็บงานเขียนที่เป็นตัวแทนของภาษาปัจจุบัน โดยกำหนดให้เป็นงานเขียนในช่วง พ.ศ. 2541-2550 เป็นหลัก และยอมให้มีงานเขียนในช่วง พ.ศ.2531-2540 ได้ไม่เกิน 10% ยกเว้นในกรณีของงานแต่งเช่น นิยาย ที่ยอมให้เก่ากว่านั้นได้ แต่มีข้อแม้ว่าต้องเป็นงานที่มีการตีพิมพ์ซ้ำในช่วงพ.ศ. ที่กล่าวมา
ประเภทงานเขียน : เป็นเกณฑ์ที่ใช้กำหนดประเภทงานแต่ละชิ้นที่ได้มา ซึ่งไม่ได้กำหนดสัดส่วนไว้ตายตัว แต่กำหนดขึ้นเพื่อเป็นเป้าหมายว่าในคลังข้อมูลภาษาไทยแห่งชาติควรจะมีงาน เขียนทุกประเภทที่กำหนดนี้ในจำนวนพอสมควร
ประเภทงานเขียนที่กำหนดไว้เบื้องต้นมีดังนี้
งานวิชาการ : มนุษยศาสตร์ เช่น ปรัชญา ประวัติศาสตร์ วรรณคดี ศิลปะ ดนตรี; การแพทย์; วิทยาศาสตร์ธรรมชาติ เช่น ฟิสิกส์ เคมี ชีวะ; รัฐศาสตร์ กฎหมาย การศึกษา; สังคมศาสตร์ เช่น จิตวิทยา สังคมวิทยา ภาษาศาสตร์; เทคโนโลยีและวิศวกรรม
กึ่งวิชาการ : มนุษยศาสตร์ เช่น ปรัชญา ประวัติศาสตร์ วรรณคดี ศิลปะ ดนตรี; การแพทย์; วิทยาศาสตร์ธรรมชาติ เช่น ฟิสิกส์ เคมี ชีวะ; รัฐศาสตร์ กฎหมาย การศึกษา; สังคมศาสตร์ เช่น จิตวิทยา สังคมวิทยา ภาษาศาสตร์; เทคโนโลยีและวิศวกรรม;การบริหาร ; โฆษณา; ชีวประวัติ; เศรษฐกิจการเงินการพาณิชย์; ศาสนา; เอกสารหน่วยงาน; คู่มือ ขั้นตอน; กฎระเบียบ กฎหมาย; เรียงความ : โรงเรียน; มหาวิทยาลัย; อีเมล์; จดหมาย : ส่วนตัว; ทางการ; บล็อก; นิตยสาร วารสาร; หนังสือพิมพ์ บทบรรณาธิการ ทัศนะวิจารณ์; ข่าวเกษตรกรรม; ข่าวอาชญากรรม; ข่าวเศรษฐกิจ; ข่าวการศึกษา; ข่าวบันเทิง; ข่าวต่างประเทศ; ข่าวท้องถิ่น; ข่าวการเมือง; ข่าววิทยาศาสตร์เทคโนโลยี; ข่าวสังคม; ข่าวกีฬา; ข่าวราชสำนัก; อื่นๆ
เรื่องแต่ง : บทละคร; โคลงกลอน; นิยาย; เรื่องสั้น;
อื่นๆ
นอกจากเกณฑ์หลักทั้งสี่แล้ว ยังมีเกณฑ์ย่อยอื่นๆอีก ซึ่งไม่ได้กำหนดกฎเกณฑ์ไว้ตายตัวว่าต้องเป็นเช่นไร เพียงแค่พยายามให้มีความหลากหลายเท่าที่จะเป็นไปได้ ในเกณฑ์นั้น ๆ เช่น ขนาดของงานเขียนและขอบเขต (จุดเริ่มและจุดสุดท้าย) หัวข้อของงานเขียน อายุ เพศ และภูมิลำเนาของผู้แต่ง อายุและเพศของกลุ่มเป้าหมาย เป็นต้น
แจกแจงโครงสร้างข้อมูล TNC 3.0