זיהוי אותיות אופטי : מהדורה 15

הערה: זו מהדורה ישנה של המסמך. לצפיה במהדורה האחרונה.

זיהוי תווים אופטי

מטרתם של כלים לזיהוי תווים אופטי להפוך טקסט, מודפס על נייר, לטקסט דיגיטלי אותו ניתן לערוך בעזרת מחשב. טקסט דיגיטלי תופס פחות מקום אכסון, ניתן לעריכה במעבד תמלילים וקל יותר לחיפוש ואינדוקס. התהליך שימושי במיוחד כאשר יש לנו טקסט מודפס ואנו רוצים להשתמש בו בעבודת מחקר, בדפים המחולקים לתלמידים, באתר אינטרנט או בלוג. שימושים נוספים יכלים להיות פענוח טפסים ודפי מבחן בצורה אוטומטית, תוך חיסכון בעבודה של בודק המבחנים.

תהליך הפיכת טקסט מודפס לטקסט דיגיטלי מורכב ממספר שלבים. ראשית סורקים או מצלמים את הטקסט לקובץ תמונה, אח"כ מפעילים על התמונה תוכנה שמפענחת ממנה את הטקסט. בד"כ יהיה צורך להכין את התמונה לפני ביצוע זיהוי התווים, לנקות לכלוכים ולוודא כי הכתב קריא וברור. זהו תהליך הפוך להדפסת מסמך: בעוד שבהדפסה הופכים תווים מוקלדים לתמונה, בזיהוי תווים אופטי ממירים ומפענחים תמונה, לקובץ של אותיות מוקלדות.

קישור חיצוני:

זיהוי תווים אופטי בויקיפדיה

כלים נפוצים

בד"כ נסרוק את הטקסט שלנו בעזרת סורק. בלינוקס נשתמש בכלים הבנויים סביב מערכת sane. מדריך זה לא יתעמק בנושא סריקת הטקסט. למידע נוסף על סריקת מסמכים, והכלים הנפוצים אפשר לפנות לאתר של sane.

קישור חיצוני:

דף תכנות המשתמשות ב sane

ישנן מספר תכנות חופשיות המסוגלות להמיר קובץ תמונה לקובץ טקסט לועזי. הנפוצות הן, gocr ו tesseract. תכנות אלו סטנדרטיות ומצויות במאגרים של רוב הפצות הלינוקס. יש להן גם גרסאות למערכות הפעלה נוספות.

תכנות חופשיות להמרת קובץ תמונה לקובץ טקסט עברי נדירות יותר. מדריך זה יתמקד בתכנת hocr. לתכנת hocr מנשק שורת פקודה בשם hocr, מנשק גרפי בשם hocr-gtk וכן ניתן לכתוב תסריטים ותכנות המשתמשות בתכנה בשפת פיתון.

קישור חיצוני:
דף הבית של תכנת hocr

hocr-gtk

ניתן להשתמש בתכנת hocr במספר צורות ומנשקים. לכל צורת שימוש יתרונות משלה. מדריך זה יתמקד בשימוש במנשק הגרפי של התכנה. היתרונות של שימוש במנשק הגרפי הם קלות השימוש והלימוד, היכולת להשתמש בסורק או בקבצי תמונה מוכנים, והצגה ברורה של אפשרויות הכיוון השונים של התכנה.

כאשר פותחים את תכנת hocr-gtk מקבלים חלון המחולק לשניים. החלק העליון מיועד לתמונת הטקסט אותה אנו רוצים לפענח, והתחתון מיועד להגהת הטקסט המפוענח.

hocr-gtk about

כאשר נרצה להמיר תמונה נשתמש בתפריט ה"קובץ" ונבחר באפשרות "חדש". יפתח חלון חדש לפתיחת קובץ, בו נבחר את קובץ התמונה אותו אנו רוצים להמיר. תכנת hocr-gtk יודעת לקרוא את רוב קבצי התמונה הקיימים (png, jpeg, bmp, tiff, pnm ... ) . לתוכנה גם אין בעיה להתמודד עם תמונות בעומקי צבע שונים ועם תמונות שחור לבן או שבגווני אפור.

hocr-gtk new

לאחר שנלחץ על אפשרות ה"חדש" , נקבל חלון חדשה לבחירת קובץ. בחלון בחירת הקובץ נבחר את קובץ התמונה אותו אנו רוצים להמיר מתמונה לטקסט. כאשר נלחץ על שם של קובץ נראה תמונה קטנה של תוכן הקובץ בצד חלון פתיחת הקובץ.

hocr-gtk open

לאחר שבחרנו בקובץ התמונה אותו אנו רוצים להמיר נבחר שוב בתפריט "קובץ" אך הפעם נבחר באפשרות "החל". תהליך פענוח התמונה לוקח זמן (רב..) , במהלך הפענוח יופיע פס התקדמות שיעלם עם סיום תהליך הפענוח. פס ההיתקדמות יתמלא ויתרוקן מספר פעמים לפני שנקבל את תוצאות ההמרה. בתמונה רואים את פס ההתקדמות בפינה הימנית התחתונה של חלון התכנה, על פס ההתקדמות כתובה המילה "מעבד..."

hocr-gtk apply

לאחר סיום תהליך הפענוח נקבל את הטקסט המפוענח בחלון עריכת הטקסט. כדי להגיה את הטקסט בקלות, חלון הטקסט וחלון התמונה מסודרות זו מתחת לזו. חלון עריכת הטקסט מאפשר לבצע את כל פעולות העריכה הרגילות, העתקה, גזירה והדבקה. פעולות העריכה זמינות מתפריט ה"עריכה" וגם מקיצורי מקשים.

hocr-gtk finish

ניתן גם לסרוק את הטקסט ישירות לתוך תכנת hocr-gtk. כדי לסרוק טקסט ישירות לתכנה נשתמש בתפריט "קובץ" ואז נבחר את האפשרות "סרוק". כאשר אנו רוצים לזהות טקסט לא ברור, ישן, או שאני חושבים שההדפסה אינה איכותית נשתדל לסרוק בהפרדה גבוהה ובצבע. בתמונה הבאה נראה דף מתנ"ך בו הדפוס קטן ולא ברור. הטקסט ניסרק בצבע מלא ובהפרדה של 1200 נקודות לאינץ. בד"כ אין צורך בהפרדה כה גבוהה, טקסט ברור ונקי אפשר לסרוק גם בהפרדה של 300 נקודות לאינץ.

hocr-gtk sane

אפשרות נוספת שמאפשרת התכנה היא הצגת הטקסט כפי שהתכנה רואה אותו. אם נבחר בתפריט "תצוגה" ובאופציה "תמונה" נוכל לראות את הטקסט הסרוק כפי שהוא, כמו שהוא נראה לאחר עיבודו לתמונה שחור-לבן ואף ניתן לראות את הצורה שבה התכנה הבינה את מבנה הטקסט. אופציה זו שימושית כדי לזהות בקלות מקומות בטקסט אותן התכנה זיהתה בצורה שגויה.

hocr-gtk layout

לתוכנה אפשרויות רבות נוספות. ניתן לבצע את זיהוי האותיות עם ובלי ניקוד. אפשר לקבל את התוצאה של זיהוי האותיות בפורמט html מיוחד שהוגדר לצורך הצגת טקסט שעבר תהליך ocr, ומשמש תוכנות ocr נוספות. ניתן לשמור את תוצאת הזיהוי לקובץ, ולשנות את גודל תמונת הטקסט לצורך הגהה קלה ואף את הגופן המשמש את חלונית העריכה.

ניתן להשתמש בתכנה גם לזיהוי טקסט לועזי ע"י בחירת מנוע זיהוי אותיות שונה מ hocr. בתפריט ה "עריכה" תחת האפשרות "מנוע" ניתן לשנות את מנוע הזיהוי, במידה ומותקן מנוע זיהוי תווים מסוג tesseract במערכת.