זיהוי אותיות אופטי : מהדורה 2

הערה: זו מהדורה ישנה של המסמך. לצפיה במהדורה האחרונה.

זיהוי תווים אופטי

מטרתם של כלים לזיהוי תווים אופטי להפוך טקסט, מודפס על נייר, לטקסט דיגיטאלי אותו ניתן לערוך בעזרת מחשב. טקסט דיגיטאלי תופס פחות מקום איכסון, ניתן לעריכה במעבד תמלילים וקל יותר לחיפוס ואינדוקס. התהליך שימושי במיוחד כאשר יש לנו טקסט מודפס ואנו רוצים להישתמש בו בעבודת מחקר, בדפים המחולקים לתלמידים, באתר אינטרנט או בלוג. שימושים נוספים יכלוים להיות פיענוך טפסים ודפי מיבחן בצורה אוטומטית, תוך חיסכון בעבודה של בודק המיבחנים.

תהליך הפיכת טקסט מודפס לטקסט דיגיטאלי מורכב ממספר שלבים. ראשית סורקים או מצלמים את הטקסט לקובץ תמונה, אח"כ מפעילים על התמונה תוכנה שמפענחת ממנה את הטקסט. בד"כ יהיה צורך להכין את התמונה לפני ביצוע זיהוי התווים, לנקות ליכלוכים ולוודא כי הכתב קריא וברור. זהו תהליך הפוך להדפסת מסמך: בעוד שבהדפסה הופכים תווים מוקלדים לתמונה, בזיהוי תווים אופטי ממירים ומפענחים תמונה, לקובץ של אותיות מוקלדות.

קישור חיצוני:

זיהוי תווים אופטי בויקיפדיה

כלים נפוצים

בד"כ ניסרוק את הטקסט שלנו בעזרת סורק. בלינוקס נשתמש בכלים הבנויים סביב מערכת sane. מדריך זה לא יתעמק בנושא סריקת הטקסט. למידע נוסף על סריקת מסמכים, והכלים הנפוצים אפשר לפנות לאתר של sane.

קישור חיצוני:

דף תוכנות המשתמשות ב sane

ישנן מספר תכנות חופשיות המסוגלות להמיר קובץ תמונה לקובץ טקסט לועזי. הנפוצות הן, gocr ו tesseract. תוכנות אלו סטנדרטיות ומצויות במאגרים של רוב הפצות הלינוקס. יש להן גם גירסאות למערכות הפעלה נוספות.

תוכנות חופשיות להמרת קובץ תמונה לקובץ טקסט עברי נדירות יותר. מדריך זה יתמקד בתכנת hocr. ניתן להישתמש בתכנה ע"י מנשק שורת פקודה בשם hocr, מנשק גרפי בשם hocr-gtk וכן ניתן לכתוב תסריטים ותוכנות המשתמשות בתכנה בשפת פיתון.

קישור חיצוני:
דף הבית של תכנת hocr

hocr-gtk

ניתן להשתמש בתכנת hocr במספר צורות ומנשקים. לכל צורת שימוש יתרונות משלה. מדריך זה יתמקד בשימוש במנשק הגרפי של התכנה. היתרונות של שימוש במינשק הגרפי הם, קלות השימוש והלימוד.

hocr-gtk about hocr-gtk new hocr-gtk open hocr-gtk apply hocr-gtk finish hocr-gtk sane hocr-gtk layout