עדכוני RSS
זיהוי אותיות אופטי : מהדורה 3
זיהוי תווים אופטי
מטרתם של כלים לזיהוי תווים אופטי להפוך טקסט, מודפס על נייר, לטקסט דיגיטאלי אותו ניתן לערוך בעזרת מחשב. טקסט דיגיטאלי תופס פחות מקום איכסון, ניתן לעריכה במעבד תמלילים וקל יותר לחיפוס ואינדוקס. התהליך שימושי במיוחד כאשר יש לנו טקסט מודפס ואנו רוצים להישתמש בו בעבודת מחקר, בדפים המחולקים לתלמידים, באתר אינטרנט או בלוג. שימושים נוספים יכלוים להיות פיענוך טפסים ודפי מיבחן בצורה אוטומטית, תוך חיסכון בעבודה של בודק המיבחנים.
תהליך הפיכת טקסט מודפס לטקסט דיגיטאלי מורכב ממספר שלבים. ראשית סורקים או מצלמים את הטקסט לקובץ תמונה, אח"כ מפעילים על התמונה תוכנה שמפענחת ממנה את הטקסט. בד"כ יהיה צורך להכין את התמונה לפני ביצוע זיהוי התווים, לנקות ליכלוכים ולוודא כי הכתב קריא וברור. זהו תהליך הפוך להדפסת מסמך: בעוד שבהדפסה הופכים תווים מוקלדים לתמונה, בזיהוי תווים אופטי ממירים ומפענחים תמונה, לקובץ של אותיות מוקלדות.
קישור חיצוני:
זיהוי תווים אופטי בויקיפדיה
כלים נפוצים
בד"כ ניסרוק את הטקסט שלנו בעזרת סורק. בלינוקס נשתמש בכלים הבנויים סביב מערכת sane. מדריך זה לא יתעמק בנושא סריקת הטקסט. למידע נוסף על סריקת מסמכים, והכלים הנפוצים אפשר לפנות לאתר של sane.
קישור חיצוני:
דף תוכנות המשתמשות ב sane
ישנן מספר תכנות חופשיות המסוגלות להמיר קובץ תמונה לקובץ טקסט לועזי. הנפוצות הן, gocr ו tesseract. תוכנות אלו סטנדרטיות ומצויות במאגרים של רוב הפצות הלינוקס. יש להן גם גירסאות למערכות הפעלה נוספות.
תוכנות חופשיות להמרת קובץ תמונה לקובץ טקסט עברי נדירות יותר. מדריך זה יתמקד בתכנת hocr. ניתן להישתמש בתכנה ע"י מנשק שורת פקודה בשם hocr, מנשק גרפי בשם hocr-gtk וכן ניתן לכתוב תסריטים ותוכנות המשתמשות בתכנה בשפת פיתון.
- קישור חיצוני:
- דף הבית של תכנת hocr
hocr-gtk
ניתן להשתמש בתכנת hocr במספר צורות ומנשקים. לכל צורת שימוש יתרונות משלה. מדריך זה יתמקד בשימוש במנשק הגרפי של התכנה. היתרונות של שימוש במינשק הגרפי הם, קלות השימוש והלימוד.
כאשר פותחים את תכנת hocr-gtk מקבלים חלונית המחולקת לשניים. החלק העליון מיועד לתמונת הטקסט אותה אנו רוצים לפענח, וחלק תחתון בו יתקבל הטקסט המפוענך.
כאשר נרצה להמיר תמונה נשתמש בתפריט ה"קובץ" ונבחר באפשרות "חדש"
נקבל חלונית חדשה לבחירת קובץ. בחלון בחירת הקובץ נבחר את קובץ התמונה אותו אנו רוצים להמיר
לאחר שבחרנו בקובץ התמונה אותו אנו רוצים להמיר נבחר שוב בתפריט "קובץ" אך הפעם נבחר באפשרות "החל". תהליך פיענוך התמונה לוקח זמן (רב..) , במהלך הפיענוך יופיע פס התקדמות שיעלם עם סיום תהליך הפיענוך.
לאחר סיום תהליך הפיענוך נקבל את הטקסט המפוענך בחלונית עריכת הטקסט. כדי להגיה את הטקסט בקלות חלונית הטקסט וחלונית התמונה מסודרות זו מתחת לזו.
ניתן גם לסרוק את הטקסט ישירות לתוך תכנת hocr-gtk. כדי לסרוק טקסט ישירות לתכנה נשתמש בתפריט "קובץ" ואת נבחר את האפשרות "סרוק"
אפשרות נוספת שמאפשרת התכנה היא צפיה בטקסט כפי שהתכנה רואה אותו. אם נבחר בתפריט "תצוגה" ובאופציה "תמונה" נוכל לראות את הטקסט הסרוק כפי שהוא, כמו שהוא נראה לאחר עיבודו לתמונה שחור-לבן ואף ניתן לראות את הצורה שבה התוכנה הבינה את מבנה הטקסט. אופציה זו שימושית כדי לזהות בקלות מקומות בטקסט אותן התכנה זיהתה בצורה שגויה.
