เป็นที่ทราบกันดีแล้วว่า ณ ปัจจุบัน หน่วยงานราชการได้มีการใช้ฟอนต์ หรือตัวอักษรภาษาไทยที่เป็นรูปแบบของตนเอง อันเนื่องมาจากส่วนราชการจำนวนมากได้มีการใช้ฟอนต์ที่หลากหลายไม่มีมาตรฐานในเอกสาร ทางราชการ อีกทั้งยังมีหน่วยงานราชการหลายแห่งใช้มาตรฐานฟอนต์ของบริษัทเอกชนที่ผูกขาด ลิขสิทธิ์ของระบบปฏิบัติงาน ทำให้จำกัดสิทธิ์ต่างๆ ที่จะมีมาตรฐานเอกสารเป็นเสรี ไม่ขึ้นกับระบบปฏิบัติการใดๆ เช่น Angsana อาจมีปัญหาเรื่องการฟ้องร้องละเมิดลิขสิทธิ์ได้ จึงได้มีการพัฒนาและมีการประกวดแข่งขันฟอนต์ ซึ่งเป็นการส่งเสริมให้เกิดการใช้ Open Source Software ที่เป็นซอฟต์แวร์เสรีให้ส่วนราชการไทยประกาศมาตรฐานเอกสารดิจิทัลและรูปแบบ ของฟอนต์ที่ไม่ขึ้นกับระบบปฏิบัติการและลิขสิทธิ์ของบริษัทใดๆ เพื่อความภาคภูมิใจในความเป็นชาติและเอกลักษณ์ของความเป็นชาติไทย
ในขณะนี้มีฟอนต์ที่ส่วนราชการไทยสามารถเป็นเจ้าของและ พร้อมแจกจ่าย ให้กับผู้ประสงค์จะใช้งานรวม 13 ฟอนต์ ซึ่งเป็นลิขสิทธิ์ สอซช. และกรมทรัพย์สินทางปัญญาเพื่อแจกจ่ายให้ใช้อย่างเสรีปราศจากปัญหาด้าน ลิขสิทธิ์ ซึ่งมีรายชื่ของฟอนต์และรูปแบบดังนี้
- TH Sarabun PSK, TH Sarabun PSK Italic, TH Sarabun PSK Bold, TH Sarabun PSK Bold Italic
- TH Chamornman, TH Chamornman Italic, TH Chamornman Bold, TH Chamornman Bold Italic
- TH Krub, TH Krub Italic, TH Krub Bold, TH Krub Bold Italic
- TH Srisakdi, TH Srisakdi Italic, TH Srisakdi Bold, TH Srisakdi Italic Bold Italic
- TH Niramit AS , TH Niramit AS Italic , TH Niramit AS Bold , TH Niramit AS Bold Italic
- TH Charm of AU , TH Charm of AU Italic, TH Charm of AU Bold, TH Charm of AU Bold Italic
- TH Kodchasal, TH Kodchasal Italic, TH Kodchasal Bold, TH Kodchasal Bold Italic
- TH K2D July8, TH K2D July8 Italic, TH K2D July8 Bold, TH K2D July8 Bold Italic
- TH Mali Grade 6, TH Mali Grade 6 Italic, TH Mali Grade 6 Bold, TH Mali Grade 6 Bold Italic
- TH Chakra Petch, TH Chakra Petch Italic, TH Chakra Petch Bold, TH Chakra Petch Bold Italic
- TH Baijam, TH Baijam Italic, TH Baijam Bold, TH Baijam Bold Italic
- TH KoHo, TH KoHo Italic, TH KoHo Bold, TH KoHo Bold Italic
- TH Fah Kwang, TH Fah Kwang Italic, TH Fah Kwang Bold, TH Fah Kwang Bold Italic
ที่มาของข้อมูล: http://www.nmd.go.th/document/font/sipafont.htm
และด้วยลักษณะพิเศษของฟอนต์ภาษาไทยทั้ง 13 นี้ ที่จะต้องมีการนำมาใช้ในหน่วยงานราชการไทย จึงมักมีคำถามเกิดขึ้นกับโปรแกรมที่สามารถจับข้อมูลออกจากเอกสารและแปลงออกมาเป็นข้อมูลข้อความได้ อาทิเช่น โปรแกรม ABBYY เป็นต้น ว่าสามารถทำงานกับฟอนต์ทั้ง 13 แบบนี้ได้หรือไม่ และ มีความถูกต้องหลังจากผ่านขั้นตอนการทำ OCR หรือ Optical Character Recognition แล้วจะมี % ของความถูกต้องเป็นอย่างไร ตารางข้อมูลด้านล่างจะแสดง % ของความถูกต้องของฟอนต์แต่ละแบบที่โปรแกรม ABBYY รองรับ
Tahoma | TH Sarabun-PSK | TH Niramit AS | TH Kodchasal | TH Baijam | TH Fah kwang |
95.5% | 98.1% | 97.3% | 97.5% | 96.8% | 96.4% |
ภาพตัวอย่างฟอนต์ที่ชื่อ TH Sarabun PSK ที่ Lab ของ ABBYY ทดสอบแล้วได้ความถูกต้องถึง 98.1%
ภาพตัวอย่างฟอนต์ที่ชื่อ TH Niramit AS ที่ Lab ของ ABBYY ทดสอบแล้วได้ความถูกต้องถึง 97.3%
ภาพตัวอย่างฟอนต์ที่ชื่อ TH Kodchasal ที่ Lab ของ ABBYY ทดสอบแล้วได้ความถูกต้องถึง 97.5%
ภาพตัวอย่างฟอนต์ที่ชื่อ TH Baijam ที่ Lab ของ ABBYY ทดสอบแล้วได้ความถูกต้องถึง 96.8%
ภาพตัวอย่างฟอนต์ที่ชื่อ TH Fahkwang ที่ Lab ของ ABBYY ทดสอบแล้วได้ความถูกต้องถึง 96.4%
แต่ทั้งนี้ทั้งนั้นในการใช้งานจริง คุณภาพของเอกสารก็จะไม่สะอาด และชัดเหมือนกับตัวอย่างที่ใช้ในการทดสอบความถูกต้อง คุณภาพของการทำ THAI OCR ที่สูง จะขึ้นอยู่กับปัจจัยสำคัญๆดังนี้
- ความละเอียดที่ใช้ในการสแกน ควรจะไม่น้อยกว่า 300 จุดต่อนิ้ว หากขนาดของฟอนต์ไม่เล็กกว่า 12pt และ ใช้ความละเอียดที่ 600 จุดต่อนิ้ว หากขนาดของฟอนต์เล็กกว่า 12pt
- โหมดการสแกนที่ดีที่สุด สำหรับการทำ OCR ตามลำดับคือ Color, Grayscale และ Balck & White
- บนเนื้อความของเอกสารที่ต้องการทำ OCR ไม่ควรมีข้อมูลรบกวน เช่น เส้นขีดทับ , ตรายางประทับ, การทำไฮไลท์ตัวอักษร เป็นต้น เพราะจะทำให้การอ่านข้อมูลบริเวณดังกล่าว ไม่ถูกต้อง
- ฟอนต์กราฟิก หรือ ฟอนต์อื่นๆที่แตกต่างไปจากฟอนต์ที่มากับระบบ Windows และ 13 Thai Fonts จะเกิดความผิดพลาดสูง