โอซีอาร์ จากภาพสู่ตัวอักษร

          เทคโนโลยีที่สามารถแปลงข้อมูลจากตัวอักษรบนหน้ากระดาษ (ที่เป็นแฟ้มข้อมูลรูปภาพ) ให้กลายไปเป็นแฟ้มข้อมูลตัวอักษร (แฟ้มข้อมูลเอกสารที่แก้ไขได้) ในคอมพิวเตอร์ ซึ่งเรียกว่า โอซีอาร์ มาจากศัพท์ภาษาอังกฤษ คือ Optical Character Reader และ Optical Character Recognition โดยคำแรกคณะกรรมการบัญญัติศัพท์คอมพิวเตอร์ แห่งราชบัณฑิตยสถานได้บัญญัติว่า “เครื่องอ่านอักขระด้วยแสง” ส่วน Optical Character Recognition  บัญญัติว่า “การรู้จำอักขระด้วยแสง” 

          นักวิจัยมีความสนใจในงานโอซีอาร์มานานมากแล้ว เพราะถ้าโอซีอาร์ประสบผลสำเร็จ งานพิมพ์เอกสารต่าง ๆ เพื่อเก็บเป็นแฟ้มข้อความก็จะกลายเป็นหน้าที่ของระบบคอมพิวเตอร์ ซึ่งการประมวลผลจะเร็วกว่าการพิมพ์ของมนุษย์โดยเฉลี่ยประมาณ ๕ เท่า และในบางระบบ ยังมีความถูกต้องมากกว่าการพิมพ์ของมนุษย์อีกด้วย  โอซีอาร์ในการรู้จำภาษาอังกฤษ มีการพัฒนามายาวนานจนมีความถูกต้องแม่นยำอยู่ในระดับร้อยละ ๙๙.๙  ภาษาไทยของเราก็มีโปรแกรมโอซีอาร์แล้ว คือโปรแกรม อ่านไทย (ArnThai) พัฒนาโดยศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ หรือ เนคเทค (NECTEC) และมีบริการบนอินเทอร์เน็ตไว้ให้ด้วย ซึ่งความสามารถในการรู้จำของโปรแกรมอ่านไทยนี้ มีความถูกต้องพอใช้ได้ ส่วนหนึ่งเนื่องมาจากภาษาไทยมีลักษณะเฉพาะที่ต่างออกไปจากภาษาอื่น อีกทั้งยังมีอักขระคล้ายกันแต่ทำหน้าที่แตกต่างกันอยู่หลายตัว รวมทั้งประโยคภาษาไทยที่ประกอบไปด้วยตัวอักษร ๔ ระดับ เหล่านี้เป็นปัญหาที่ยากสำหรับการพัฒนาโอซีอาร์ภาษาไทยให้ได้ความถูกต้องที่ร้อยละ ๙๙.๙  ส่วนการพัฒนาปรับปรุงเพิ่มประสิทธิภาพต่อไปในอนาคตนั้นทางเนคเทคได้ชี้แจงไว้แล้วในเว็บไซต์

          ต่อไปนี้งานเอกสารที่เป็นแฟ้มข้อมูลรูปภาพจำนวนมาก หากต้องการจัดเก็บลงคอมพิวเตอร์เป็นแฟ้มข้อมูลเอกสาร ก็มีวิธีที่ทำให้คอมพิวเตอร์รู้จักตัวอักษรในภาพ แล้วแปลงเป็นแฟ้มข้อมูลเอกสารโดยไม่ต้องมานั่งพิมพ์ดีดลงใหม่แล้วนะคะ

  รัตติกาล  ศรีอำไพ