במבחן השני בדקנו איך התוכנה מתמודדות עם שתי סריקות ברזולוציות נמוכו, וכמה טקסט היא מצליחה לקרא גם במקרים בעייתיים במיוחד. מדובר בטקסטים שנלקחו מחומר למידה של כיתה י"ב כך שהוא כולל גם לא מעט ביאורים בכתב יד.
הטקסט הראשון:
תוצאות הסריקה:
בהתחשב באיכות הירודה ציפינו לקבל מבנה טקסט זהה המורכב לחלוטין מג'יבריש בלתי-קריא. התוצאות רחוקות מלהיות מושלמות אך הופתענו לטובה כשכמעט פסקה שלמה יצאה קריאה לחלוטין, מה שמאפשר להפיק עותק מושלם במידת הצורך (אחרי הרבה סבלנות ועריכה).
הטקסט השני:
תוצאות הסריקה:
העמוד הראשון בלתי קריא ואף בלתי ניתן לעריכה. העמוד השני הפתיע עם כמות הטקסט הברור (באופן יחסי לרזולוציה בה נסרק, כמובן). מכיוון שהעיצוב נשמר במדויק וללא בעיות (זאת בניגוד לעמוד הקודם) אז ישנה אפשרות להפיק עותק מושלם במידת הצורך (שוב, אחרי סבלנות ועריכה רבה).
במבחן השלישי בחנו סריקת צילומי מסך שנעשו באמצעות יישום לכידת המסך המובנה. פעם אחת צילמנו אנגלית ובפעם השנייה עברית.
יישום לכידת המסך הפתיע אותנו עם מגוון האפשרויות שלו הכוללות, בין היתר, את אובייקט הלכידה, אזור מסומן במסך, חלון נבחר, כל המסךוכן או טיימר צילום עם השהייה של 5 שניות. ניתן לבחור את שפת מסמך המקור וכן סוג הקובץ בו ישמר הטקסט שנקלט.
לכידת מסך מאתר החדשות של וואלה – לכידת אזור של טקסט ושליחת התוצאה לקובץ וורד:
התוצאה:
ניתן לראות שהתוצאה טובה אך בהחלט לא מושלמת כאשר חלק מהתווים זוהו בטעות כמספרים או סימני פיסוק וחלק מהמילים לא זוהו באופן מדויק.
לכידת מסך מאתר החדשות של CNN – לכידת אזור של טקסט ושליחת התוצאה לקובץ וורד
התוצאה:
כפי שניתן לראות הסריקה והזיהוי יצאו מושלמים וללא רבב, גם בפסקה אותה הדגשנו משום ששיערנו כי בפסקה עמוסה בסימני פיסוק התוכנה תפיק לפחות שגיאה אחת. מסתבר טעינו.
במבחן הרביעי בדקנו את אפליקציית סורק כרטיסי הביקור, יישום שמגיע רק בגרסת אנטרפרייז המיועדת לעסקים. בעזרתו ניתן לקרא את המידע העסקי מכרטיסי הביקור ולשמור אותו ישירות לאאוטלוק.
התאכזבנו מאוד לגלות כי ביישום זה אין תמיכה בשפה העברית, עובדה שצמצמה מאוד את היכולת שלנו לבדוק את היישום בגלל שכרטיסי הביקור שהיו ברשותנו היו בשפה העברית.
בדקנו שני כרטיסי ביקור, אחד עם עיצוב מורכב ואחד בעל עיצוב סטנדרטי ומינימליסטי.
כפי שכבר ציינו, באופן תמוהה ומאכזב אין ליישום זה תמיכה בעברית כך שכל המידע שהתוכנה הצליחה לחלץ מהכרטיסים היה ג'יבריש. לכן, החלטנו לבדוק את היכולת של התוכנה לקרא מספרי טלפון בלבד.
בכרטיס הביקור הראשון לא חולצו כלל מספרי הטלפון למרות שאלה תווים גדולים וברורים:
כנראה, היישום לא בנוי להתמודד עם כרטיסים בעלי עיצוב מורכב, זאת משום שבכרטיס השני התוצאות כבר היו טובות יותר, אך לא מושלמות. רק מספר טלפון אחד (הטלפון הקווי) נקלט כראוי, בעוד השני (המספר הנייד) הוצג עם מספרים עודפים מסיבה שאינה ברורה.
בפועל, היישום הזה הוא לא יותר מאשר גימיק נחמד ובמתכונתו הנוכחית הוא חסר תועלת בישראל משום שאינו תומך בעברית. מוזר, בהתחשב בעודה כי התוכנה עצמה כן תומכת בזיהוי תווים בעברית.
מגיע לארץ עם מחיר
האם היא תגיע לארץ וכמה תעלה?
בדקתי בעצמי,
התוכנה עצמה מרשימה מאוד, והצליחה לא רע כאשר ניסיתי להעביר טקסט בדפוס לוורד, אבל כתב יד הוא רחוק מלזהות. אולי באנגלית זה ילך טוב יותר…
הוא העליב לי את הכתב יד באנגלית ולא הצליח להבין כלום…
נמשיך עם דפוס…
תודה, אבל הסקירה חסרה
דבר ראשון הייתי מצפה לראות בדיקה של זיהוי תווים של טקסט עברי סרוק (ולא רק צילומסך). צריך לבדוק גם טקסט מנוקד, פונטים שונים, כתב רש"י, דפוסים ישנים – שם זה המבחן האמיתי של תוכנת OCR.
דבר שני, לכל העוסקים בתחום ברור שאין דבר כזה OCR מושלם. השאלה מי עושה פחות טעויות. צריך כתבה שתשווה את התוצאות של התוכנות המובילות – wisepage, ליגטורה וכו', ותראה איזו מהן נותנת את התוצאה הטובה ביותר.
נשמע כאילו כל הרע זה עברית ולא התוכנה
אין חדש תחת השמש
תוצאות טובות יותר קיבלתי מתוכנות כמו ליגטורה/אותיות לפני יותר מעשור. ועד שלא יצליחו ליצור בינה מלאכותית, לא ניתן יהיה לפענח סריקת כתב יד כמו שצריך.
מחיר????
כמה מחיר????