משמאל נמצאים העמודים שנסרקו. בירוק מסומנים החלקים שניתן לסרוק ולהמיר ובאדום חלקים שהתוכנה לא הצליחה או יכולה לסרוק.
בצד ימין נמצאת התוצאה של החומר שנסרק, אפשרויות העריכה השונות. תווים או מילים שהתוכנה לא בטוחה בזיהוי שלהם מסומנים בתכלת. במידה והמילה נסרקה כראוי אבל התוכנה לא מצליחה לזהות אותה במאת האחוזים היא תיתן אפשרויות למילים חלופיות, בדומה לבודק האיות של וורד.
בתחתית החלון ניתן לראות את הסריקה בתקריב. מצאנו כי אפשרות זו נוחה ומקלה במיוחד על אופן העבודה.
במבחן הראשון בדקנו את יכולות הקריאה של התוכנה באנגלית ובעברית. על מנת לבחון את זיהוי כתה היד בחרנו לכתוב את המשפט
"HWzone.co.ilאתר המחשבים, הטכנולוגיה והחומרה הגדול, המוביל והותיק בישראל" או באנגלית "HWzone.co.IL the leading Israeli site for computers, hardware and technology".
פעם אחת סרקנו במצב אופטימאלי, כאשר הדף מסודר ונק ופעם שנייה במצב גרוע, כאשר הדף עבר מגוון התעללויות. כמו כן, בדקנו זיהוי של טקסט בתמונה שצולמה באמצעות מצלמה של סמארטפון.
סריקה 1 – אופטימאלית
תוצאה:
המבנה נשמר במדויק אך הזיהוי כשל לחלוטין ולא הופק טקסט קריא.
סריקה 1 – התעללות
תוצאה:
המבנה נשמר במדויק אך הזיהוי כשל לחלוטין ולא הופק טקסט קריא. ההתעללות לא שינתה את התוצאה.
סריקה 2 – אופטימאלית
תוצאה:
המבנה נשמר במדויק אך הזיהוי כשל לחלוטין ולא הופק טקסט קריא. ההתעללות לא שינתה את התוצאה.
סריקה 2 – התעללות
תוצאה:
המבנה נשמר במדויק אך הזיהוי כשל לחלוטין ולא הופק טקסט קריא. ההתעללות לא שינתה את התוצאה.
סריקה3 – אופטימאלית
תוצאה:
המבנה נשמר במדויק והזיהוי יצא קריא ברובו. עם מעט עריכה ניתן לקבל העתק מדויק של המקור.
סריקה 3 – התעללות
תוצאה:
באופן מפתיע, דווקא לאחר שהטקסט עבר התעללות נראה כי התוכנה סרקה וזיהתה אותו באופן מושלם לגמרי, לפחות בתור קובץ תמונה.
להלן התוצאה לאחר עריכה:
סריקה 4 – אופטימאלית
תוצאה:
המבנה נשמר במדויק אך הזיהוי כשל לחלוטין ולא הופק טקסט קריא.
סריקה 4 – התעללות
תוצאה:
גם כאן, באופן מפתיע, דווקא לאחר שהטקסט עבר התעללות נראה שהתוכנה סרקה וזיהתה אותו באופן מושלם, לפחות בתור קובץ תמונה.
להלן טקסט שצולם ממצלמה של סמארטפון:
התוכנה לא הצליחה לעבד את הקובץ כראוי אז הפעם החלטנו להתערב בעזרת כלי העריכה המובנים שלה.
הפעם התוכנה הצליחה לזהות קצת יותר טקסט אך התווים לא היו קריאים כלל.
מגיע לארץ עם מחיר
האם היא תגיע לארץ וכמה תעלה?
בדקתי בעצמי,
התוכנה עצמה מרשימה מאוד, והצליחה לא רע כאשר ניסיתי להעביר טקסט בדפוס לוורד, אבל כתב יד הוא רחוק מלזהות. אולי באנגלית זה ילך טוב יותר…
הוא העליב לי את הכתב יד באנגלית ולא הצליח להבין כלום…
נמשיך עם דפוס…
תודה, אבל הסקירה חסרה
דבר ראשון הייתי מצפה לראות בדיקה של זיהוי תווים של טקסט עברי סרוק (ולא רק צילומסך). צריך לבדוק גם טקסט מנוקד, פונטים שונים, כתב רש"י, דפוסים ישנים – שם זה המבחן האמיתי של תוכנת OCR.
דבר שני, לכל העוסקים בתחום ברור שאין דבר כזה OCR מושלם. השאלה מי עושה פחות טעויות. צריך כתבה שתשווה את התוצאות של התוכנות המובילות – wisepage, ליגטורה וכו', ותראה איזו מהן נותנת את התוצאה הטובה ביותר.
נשמע כאילו כל הרע זה עברית ולא התוכנה
אין חדש תחת השמש
תוצאות טובות יותר קיבלתי מתוכנות כמו ליגטורה/אותיות לפני יותר מעשור. ועד שלא יצליחו ליצור בינה מלאכותית, לא ניתן יהיה לפענח סריקת כתב יד כמו שצריך.
מחיר????
כמה מחיר????