לשונית המסמך תאפשר לבחור את שפת המסמך, את סוג המסמך, בין אם זהו מסמך מודפס, מסמך שהתקבל בפקס או נכתב במכונת כתיבה. כן, מכונת כתיבה. כלל הנראה התוכנה מיועדת לשמירה דיגיטלית של מסמכים ישנים. ניתן גם לבחור את הצבע של המסמך, כלומר, צבעוני או שחור לבן. באפשרות של מסמך שחור לבן ניתן לבחור גם כאשר רק הטקסט חשוב והעיצוב הוא משני. כך גם תהליך הסריקה והזיהוי מהיר יותר. מאפייני המסמך מאפשרים לנו לקרא למסמך שישמר במחשב שלנו בשם, להוסיף לו תגי זיהוי (כגון מחבר המסמך ומילות מפתח) וכן לבחור את המקום בכונן הקשיח בו ישמר.
189 השפות שמציעה התוכנה מתחלקות לשלושה סוגים. קבוצת השפות הראשונות כוללת שפות טבעיות כגון עברית, ערבית, ספרדית, וגרמנית. הקבוצה השנייה כוללת שפות מלאכותיות כגון אספרנטו ואידו. הקבוצה השלישית כוללת שפות רשמיות כגון מספרים JAVA ו-BASIC.
לזיהוי מיטבי ניתן לערוך את מאפייני השפה הכוללים את השם שלה, המקור שלה והאותיות שלה (לרבות הצורה בה נכתבים מספרים). כמו כן, ניתן לבחור האם התוכנה תבצע את זיהוי המילים על פי המילון המובנה שלה או מילון שהוכן על ידי המשתמש.
באפשרויות מתקדמות ניתן לבחור ולערוך את סימני הפיסוק המקובלים בתחילת מילים וגם בסופן, כגון סימני פיסוק העומדים בפני עצמם ללא תלות או הקשר למילים או תווים שיש להתעלם מהם. תיאורטית, זה יאפשר לתוכנה לזהות גם מילה כגון "100מם" כ-"מהמם". ניתן להגדיר גם תווים אסורים לשימוש (עם אפשרות לקבוע חריגים מהכלל כגון ספרות רומיות).
בלשונית הסריקה פתיחה ניתן לבחור באפשרויות הכלליות, דבר שיגרום לתוכנה לקרא אוטומטית את תמונות מהדף שנסרק ולנתח אוטומטית את התמונות, או לחילופין לא לקרא ולא לנתח את התמונות.
אפשרויות עיבוד התמונה כוללות עיבוד מקדים של התמונה, זיהוי כיוון הדף ופיצול דפים הפוכים.
ניתן לבחור את הסורק שיעבוד עם התוכנה באמצעות שימוש בממשק התוכנה או שימוש בהגדרות הממשק של הסורק הנבחר.
לשונית הקריאה מאפשרת לבחור בין קריאה יסודית המתאימה לסריקת מסמכים עם עיצובים מורכבים או רקע צבעוני, לדוגמה. קריאה מהירה מתאימה לסריקת מסמכים גדולים עם עיצובים פשוטים.
ניתן להגדיר את התוכנה לזהות תווים מסוימים, כלומר, לעשות שימוש בתבניות מובנות בלבד, בתבניות מובנות וגם בתבניות של המשתמש או שימוש בתבניות המשתמש בלבד. בנוסף, ניתן לערוך את התבניות ולבחור אילו תכונות או סימנים מזהים יגרמו לתוכנה לזהות אותם.
את השפות והתבניות של המשתמש ניתן לשמור לקובץ או לטעון אותן מקובץ מוכן, וכן לבחור את הפונטים שבהם ייעשה שימוש בטקסט המזוהה.
אפשרות מגניבה נוספת היא לסרוק ולנתח ברקוד. המסמך היחיד עם ברקוד שהיה זמין לנו בזמן הביקורת היה מסמך רפואי. כמובן שלא יכולנו לצרף את המסמך לביקורת אז תאלצו להאמין לנו שהתוצאות בזיהוי היו חלקיות בלבד ולא כל הברקודים זוהו.
לשונית שמירת הקבצים מאפשרת לבחור את המאפיינים של כל פורמט בו תומכת התוכנה.
DOCX – תאפשר בחירת העיצוב שאיתו נערוך את הדף, גודל הדף איתו נעבוד (דף 4A, גלויה, מגזין, מכתב וכו') עם אפשרות להגדיל את הדף כך שיתאים לתוכן. ישנה אפשרויות לשימור הטקסט הנסרק לרבות מבנה העמודים, כותרות ראשיות ומשניות, מבנה שורות, מספרי שורות, ושימור הצבעים ברקע. אפשרות זו אינה פעילה כברירת מחדל היות ותהליך סריקה כזה דורש הרבה יותר זמן ואני נפוץ.
XLSX – אפשרויות הטקסט כוללות התעלמות מקסט שנמצא מחוץ לטבלאות וגרפים (יעיל במיוחד אם רוצים לשמור רק טבלאות ולקצר את זמן הסריקה), המרה של ערכים נומריים למספרים וכן שמירת הכותרות הראשיות וכותרות המשנה.
[OPTIONS-SAVE_XLSX]
PDF – מאפשר לבחור את גודל הדף הנסרק (מכתב, מסמך משפט, עיתון מגזין, דף A4 וכו'). לפני שמירת המסמך שנוצר במחשב ניתן, בנוסף לאפשרויות אותן כבר סקרנו, להוסיף מילות מפתח ולהדגיש את הטקסט. ניתן לבחור להשתמש בסגנונות עיצוב של חלונות או בסגנונות עיצוב מוגדרים מראש, וכן האם על התוכנה להתייחס בזמן הסריקה לפונטים מוטבעים. אם המידע במסמך רגיש ניתן להוסיף לו סיסמה לפתיחה או להגבלת העריכה וההדפסה.
PDFA – אותן אפשרויות כמו באפשרות ה-PDF, פרט לאבטחת המסמך ובחירת סגנונות עיצוב.
HTML – מאפשר לבחור בין מספר עיצובי טקסט בהתאם לצורך (כמו מסמכי DOCX) עם אפשרות לשימוש בעיצוב CSS (אותו ניתן להתאים לפורמט HTML מגרסה 4 ומעלה). ניתן לבחור את המקדדים להצגת הטקסט ואפשרויות ליצור ספר דיגיטלי של ממש כולל יצירת תוכן עניינים וחלוקת עמודי הספר לפי הטבלה.
PPTX – אפשרויות טקסט כוללות שמירת מבנה השורות, טקסט גרפי מעוצב (שנלקח ממגזינים ועיתונים) ושמירת הכותרות וכותרות המשנה. אפשרויות התמונה כאן מאפשרות לקבוע את הרזולוציה בה תיסרק ותשמר התמונה.
TXT – שמירת עיצוב הטקסט במדויק או שמירת קובץ טקסט פשוט לעריכה. ניתן לבחור האם לשמור על מבנה השורות והפסקאות הזהה לקובץ המקור, וכן לשמור את הכותרות הראשיות והמשני ולבסוף לבחור את המקדדים בהתאם לטקסט שנסרק.
CSV – אפשרויות הטקסט כוללות התעלמות מטקסט מחוץ לטבלאות, שמירת הסדר של מסמך המקור ובחירת התו שיסמן את ההפרדה.
FB2 / EPUB – אפשרויות המסמך מאפשרות להסויף שם, מחבר, מילות מפתח והערות. ניתן לבחור את רזולוציית התמונה, העיצוב של הקובץ עם אפשרות לקבוע את העמוד הראשון בתור כריכה. כמו כן, ניתן לשלוט על העיצוב של הטקסט ועל גודלו.
DJVU – ניתן לבחור לשמור טקסט מתחת לתמונות או תמונות בלבד. פורמט זה דוחס את תמונות המסמך למספר שכבות. אפשרויות התמונה כוללות רזולוציית מקור, סריקה קומפקטית ב- 150DPI או התאמה אישית של התמונה שתשמר.
לשונית הצפייה מאפשרת לבחור את תצוגת החלון, לסמן מילים ותווים שהתוכנה לא הצליחה לזהות כראוי, להציג תווים בלתי ניתנים להדפסה, לבחור את הגופן שבו יוצג הטקסט הסרוק, את הצבע והגודל של הסימונים שביצעה התוכנה
לבסוף, לשונית ה"מתקדם" מאפשרת לבדוק את האיות לאחר הסריקה ולעצור במילים עם זיהוי לקוי של תווים, במילים שאינן מזוהות במילון, בצמדי מילים לא מוכרים וכן לתקן מרווחים אחרי ולפני סימני פיסוק. עוד ניתן לבחור את שפת הממשק (עברית אין) ולפתוח מידית את המסמך האחרון עליו עבדנו.
מגיע לארץ עם מחיר
האם היא תגיע לארץ וכמה תעלה?
בדקתי בעצמי,
התוכנה עצמה מרשימה מאוד, והצליחה לא רע כאשר ניסיתי להעביר טקסט בדפוס לוורד, אבל כתב יד הוא רחוק מלזהות. אולי באנגלית זה ילך טוב יותר…
הוא העליב לי את הכתב יד באנגלית ולא הצליח להבין כלום…
נמשיך עם דפוס…
תודה, אבל הסקירה חסרה
דבר ראשון הייתי מצפה לראות בדיקה של זיהוי תווים של טקסט עברי סרוק (ולא רק צילומסך). צריך לבדוק גם טקסט מנוקד, פונטים שונים, כתב רש"י, דפוסים ישנים – שם זה המבחן האמיתי של תוכנת OCR.
דבר שני, לכל העוסקים בתחום ברור שאין דבר כזה OCR מושלם. השאלה מי עושה פחות טעויות. צריך כתבה שתשווה את התוצאות של התוכנות המובילות – wisepage, ליגטורה וכו', ותראה איזו מהן נותנת את התוצאה הטובה ביותר.
נשמע כאילו כל הרע זה עברית ולא התוכנה
אין חדש תחת השמש
תוצאות טובות יותר קיבלתי מתוכנות כמו ליגטורה/אותיות לפני יותר מעשור. ועד שלא יצליחו ליצור בינה מלאכותית, לא ניתן יהיה לפענח סריקת כתב יד כמו שצריך.
מחיר????
כמה מחיר????