การติดตั้ง Tesseract บน Ubuntu 10.04
ทำการติดตั้งด้วยคำสั่ง
sudo apt-get install tesseract-ocr-eng
ผลจากการใช้คำสั่งนี้ คือจะทำการติดตั้ง 2 packages คือ
tesseract-ocr 2.04-2 และ tesseract-ocr-eng 2.00-1
หลังจากติดตั้งเสร็จ ส่วนของ tessdata จะเก็บอยู่ที่ /usr/share/tesseract-ocr/tessdata
การใช้งานเบื้องต้น
ให้พิมพ์คำสั่งตามรูปแบบนี้ tesseract <path to tiff image> <output file> เช่น
$ tesseract input.tif output
จะได้ไฟล์ output ชื่อ output.txt โดย tesseract จะเติม .txt ให้อัตโนมัติ
การทดสอบ Tesseract
ได้ทำการทดสอบ tesseract ด้วยไฟล์รูปภาพจำนวน 3 ไฟล์ โดยไฟล์แรกเป็นตัวอักษร A-Z ผลลัพธ์ได้ถูกต้อง 100% ดังนี้
A B C D E
F G H I J
K L M N O
P Q R S T
U V W X Y
Z
ไฟล์ที่สองเป็นตัวอักษร a-z ผลลัพธ์ได้ผิดพลาดไป 1 ตัว คือตัว z ดังนี้
a b c d c
f g h i j
k 1 m n 0
p q r s t
u v w x y
`
ไฟล์ที่สามเป็นตัวอักษร ก-ฮ ผลลัพธ์ได้ผิดพลาดไปทั้งหมด เนื่องจาก tesseract ยังไม่สนับสนุนภาษาไทย
D °I1 9 °JJ Q
‘1] il ‘1f **5 ill
Q! S] Q S °“
QI EM Y6] $1 0
14 1a u 11 1]
w nl w v~| n
ll El *5 E1 ’J
Fl EI H 14 W
B 8
ไฟล์ภาพที่ใช้ทดสอบสามารถดาว์นโหลดได้ ดังแสดงด้านล่างนี้