עדכוני RSS
זיהוי אותיות אופטי : מהדורה 1
זיהוי תווים אופטי
מטרתם של כלים לזיהוי תווים אופטי להפוך טקסט, מודפס על נייר, לטקסט דיגיטאלי אותו ניתן לערוך בעזרת מחשב. טקסט דיגיטאלי תופס פחות מקום איכסון, ניתן לעריכה במעבד תמלילים וקל יותר לחיפוס ואינדוקס. התהליך שימושי במיוחד כאשר יש לנו טקסט מודפס ואנו רוצים להישתמש בו בעבודת מחקר, בדפים המחולקים לתלמידים, באתר אינטרנט או בלוג. שימושים נוספים יכלוים להיות פיענוך טפסים ודפי מיבחן בצורה אוטומטית, תוך חיסכון בעבודה של בודק המיבחנים.
תהליך הפיכת טקסט מודפס לטקסט דיגיטאלי מורכב ממספר שלבים. ראשית סורקים או מצלמים את הטקסט לקובץ תמונה, אח"כ מפעילים על התמונה תוכנה שמפענחת ממנה את הטקסט. בד"כ יהיה צורך להכין את התמונה לפני ביצוע זיהוי התווים, לנקות ליכלוכים ולוודא כי הכתב קריא וברור. זהו תהליך הפוך להדפסת מסמך: בעוד שבהדפסה הופכים תווים מוקלדים לתמונה, בזיהוי תווים אופטי ממירים ומפענחים תמונה, לקובץ של אותיות מוקלדות.
קישור חיצוני:
זיהוי תווים אופטי בויקיפדיה
כלים נפוצים
בד"כ ניסרוק את הטקסט שלנו בעזרת סורק. בלינוקס נשתמש בכלים הבנויים סביב מערכת sane. מדריך זה לא יתעמק בנושא סריקט הטקסט. למידע נוסף על סריקת מסמכים, והכלים הנפוצים אפשר לפנות לאתר של sane.
קישור חיצוני:
דף תוכנות המשתמשות ב sane
ישנן מספר תכנות חופשיות המסוגלות להמיר קובץ תמונה לקובץ טקסט לועזי. הנפוצות הן, gocr ו tesseract. תוכנות אלו סטנדרטיות ומצויות במאגרים של רוב הפצות הלינוקס. יש להן גם גירסאות למערכות הפעלה נוספות.
תוכנות חופשיות להמרת קובץ תמונה לקובץ טקסט עברי נדירות יותר. מדריך זה יתמקד בתכנת hocr. ניתן להישתמש בתכנה ע"י מנשק שורת פקודה בשם hocr, מנשק גרפי בשם hocr-gtk, ניתן גם לכתוב תסריטים ותוכנות המשתמשות בתכנה בשפת פיתון.
- קישור חיצוני:
- דף הבית של תכנת hocr
hocr-gtk
ניתן להשתמש בתכנת hocr במספר צורות ומנשקים. לכל צורת שימוש יתרונות משלה. מדריך זה יתמקד בשימוש במנשק הגרפי של התכנה. היתרונות של שימוש במינשק הגרפי הם, קלות השימוש והלימוד בתכנה.
