דמיינו לעצמכם מצב מציאותי למדי. סטודנט מיואש צריך למצוא מספר משפטי מפתח במסמך PDF בן עשרות עמודים. הסטודנט מתיישב ומתחיל לקרא. פעם, פעמיים. החיים היו הרבה יותר קלים אם רק היה יכול להריץ חיפוש מילים מהיר על המסמך.
עכשיו תארו לעצמכם עורך דין שצריך לתקן כמה טעויות ניסוח קריטיות במסמך משפטי שנסרק ונשלח אליו בדוא"ל או בפקס. עכשיו, הוא צריך להקליד את כל המסמך מחדש.
כמה פעמים יצא לכם, המשתמשים הפשוטים, לבזבז זמן בגלל חוסר הסנכרון שבין טקסט מוקלד למודפס? אז נכון, כל מסמך מוקלד ניתן להדפיס, אך מה לגבי הפעולה ההפוכה?
הישועה מגיעה אלינו מבית חברת ABBYY שפיתחה את תכנת ה-FineReader (להלן: FR) שכל יעודה הוא להפוך את חיינו למעט יותר קלים. הרעיון מאחורי הפיתוח פשוט למדי. התוכנה יכולה לפענח מלל שנכתב בכתב יד או הודפס ולהפוך אותו למסמך מוקלד. רעיון נחמד ופשוט בתאוריה.
אנחנו בדקנו את התוכנה בגרסתה האחת עשר וראינו בדיוק כיצד מערכת זיהוי התווים החכמה שלה יודעת להתמודד עם טקסט מודפס או עם כתב יד. התוכנה מצוידת במערכת זיהוי תווים אופטית חכמה (או OCR) שאמורה לזהות תווים להפוך אותם לטקסט.
זיהוי תווים אופטי
Optical Character Recognition או "זיהוי תווים אופטי" מאפשר "לחלץ" טקסט מתוך מסמך סרוק, לכידת מסך ואפילו תצלום ממצלמה דיגיטלית (גם מצלמה של סמארטפון), כאשר המינימום הנדרש על ידי התוכנה הוא תמונה ברזולוציה של 2 מגה פיקסל. לאחר מכן, תוכלו לערוך את הקובץ שזוהה על-ידי FR בקלות או לשמור אותו פשוט בתור מסמך דיגיטלי.
הייחוד של FR בתור תכנת OCR ייעודית (ולא-חינמית) הוא בזכות טכנולוגיה ייחודית לה בלבד.
טכנולוגיה זו נקראת ADRT (ר"ת Adaptive Document Recognition Technology) שומרת את התווים והטקסט של המסמך המקורי וכן גם על מבנה העמוד והטקסט שבתמונה (שורות, פסקאות, מרווחים וכו') ומאפשרת לשמור את הפלט במספר תבניות שונות בהתאם למטרת העריכה, אך על כך בהמשך.
בביקורת זו נעבור על האפשרויות הרבות והמגוונות שמציעה התוכנה ולאחר מכן נעביר סדרת מבחנים הכוללים טקסטים בכתב יד באיכויות משתנות, תמונות שנסרקו ברזולוציות נמוכות, צילומי מסך וצילומים ממצלמה של סמארטפון.
אנחנו מודים לחברת דורן תקשורת שסיפקה את התוכנה לסקירה.
מגיע לארץ עם מחיר
האם היא תגיע לארץ וכמה תעלה?
בדקתי בעצמי,
התוכנה עצמה מרשימה מאוד, והצליחה לא רע כאשר ניסיתי להעביר טקסט בדפוס לוורד, אבל כתב יד הוא רחוק מלזהות. אולי באנגלית זה ילך טוב יותר…
הוא העליב לי את הכתב יד באנגלית ולא הצליח להבין כלום…
נמשיך עם דפוס…
תודה, אבל הסקירה חסרה
דבר ראשון הייתי מצפה לראות בדיקה של זיהוי תווים של טקסט עברי סרוק (ולא רק צילומסך). צריך לבדוק גם טקסט מנוקד, פונטים שונים, כתב רש"י, דפוסים ישנים – שם זה המבחן האמיתי של תוכנת OCR.
דבר שני, לכל העוסקים בתחום ברור שאין דבר כזה OCR מושלם. השאלה מי עושה פחות טעויות. צריך כתבה שתשווה את התוצאות של התוכנות המובילות – wisepage, ליגטורה וכו', ותראה איזו מהן נותנת את התוצאה הטובה ביותר.
נשמע כאילו כל הרע זה עברית ולא התוכנה
אין חדש תחת השמש
תוצאות טובות יותר קיבלתי מתוכנות כמו ליגטורה/אותיות לפני יותר מעשור. ועד שלא יצליחו ליצור בינה מלאכותית, לא ניתן יהיה לפענח סריקת כתב יד כמו שצריך.
מחיר????
כמה מחיר????