การติดตั้ง tesseract-ocr

การติดตั้ง Tesseract บน Ubuntu 10.04
ทำการติดตั้งด้วยคำสั่ง
sudo apt-get install tesseract-ocr-eng
ผลจากการใช้คำสั่งนี้ คือจะทำการติดตั้ง 2 packages คือ
tesseract-ocr 2.04-2 และ tesseract-ocr-eng 2.00-1

หลังจากติดตั้งเสร็จ ส่วนของ tessdata จะเก็บอยู่ที่ /usr/share/tesseract-ocr/tessdata

การใช้งานเบื้องต้น

ให้พิมพ์คำสั่งตามรูปแบบนี้ tesseract <path to tiff image> <output file> เช่น

$ tesseract input.tif output

จะได้ไฟล์ output ชื่อ output.txt โดย tesseract จะเติม .txt ให้อัตโนมัติ

การทดสอบ Tesseract

ได้ทำการทดสอบ tesseract ด้วยไฟล์รูปภาพจำนวน 3 ไฟล์ โดยไฟล์แรกเป็นตัวอักษร A-Z ผลลัพธ์ได้ถูกต้อง 100% ดังนี้

A B C D E
F G H I J
K L M N O
P Q R S T
U V W X Y
Z

ไฟล์ที่สองเป็นตัวอักษร a-z ผลลัพธ์ได้ผิดพลาดไป 1 ตัว คือตัว z ดังนี้

a b c d c
f g h i j
k 1 m n 0
p q r s t
u v w x y
`
ไฟล์ที่สามเป็นตัวอักษร ก-ฮ ผลลัพธ์ได้ผิดพลาดไปทั้งหมด เนื่องจาก tesseract ยังไม่สนับสนุนภาษาไทย

D °I1 9 °JJ Q
‘1] il ‘1f **5 ill
Q! S] Q S °“
QI EM Y6] $1 0
14 1a u 11 1]
w nl w v~| n
ll El *5 E1 ’J
Fl EI H 14 W
B 8
ไฟล์ภาพที่ใช้ทดสอบสามารถดาว์นโหลดได้ ดังแสดงด้านล่างนี้

ที่มา: OCR – Optical Character Recognitiontesseract-ocr

AngsanaEn22-1

AngsanaEn22-2

AngsanaTh24