עמוד 1 מתוך 1

שימוש בתכנת ocr

פורסם: ו' דצמבר 09, 2016 1:41 pm
על ידי ארזי הלבנון
בס"ד

שלום וברכה,
רציתי לשאול בדבר תכנות שונות הקיימות בשוק, המשמשות לצורך העתקת טקסט הנמצא בספר pdf אל word.

התכנה שהציעו לי היא ocr, אך רמת הדיוק בספר עם כתב רש"י צפוף מעט - היא נמוכה.

האם תוכלו להמליץ לי על תכנה שידועה כטובה ומוצלחת, ורמת הדיוק גבוהה?

שוב: מדובר בטקסט של ספר קדום, השמור בpdf, אותיות רש"י, צפוף במעט.

תודה רבה,
בברכה

Re: שימוש בתכנת ocr

פורסם: ו' דצמבר 09, 2016 5:23 pm
על ידי יין המשמח
כמדומני שהתכנה הטובה ביותר היא aabby

Re: שימוש בתכנת ocr

פורסם: א' דצמבר 11, 2016 12:24 pm
על ידי ארזי הלבנון
תודה רבה!

Re: שימוש בתכנת ocr

פורסם: א' דצמבר 11, 2016 8:37 pm
על ידי אביר יעקב
תפנה למייל m0504131411@gmail.com

Re: שימוש בתכנת ocr

פורסם: ד' ינואר 18, 2017 10:00 pm
על ידי פרשת_דרכים
ארז סבג כתב:בס"ד

שלום וברכה,
רציתי לשאול בדבר תכנות שונות הקיימות בשוק, המשמשות לצורך העתקת טקסט הנמצא בספר pdf אל word.

התכנה שהציעו לי היא ocr, אך רמת הדיוק בספר עם כתב רש"י צפוף מעט - היא נמוכה.

האם תוכלו להמליץ לי על תכנה שידועה כטובה ומוצלחת, ורמת הדיוק גבוהה?

שוב: מדובר בטקסט של ספר קדום, השמור בpdf, אותיות רש"י, צפוף במעט.

תודה רבה,
בברכה



כמה הבהרות:

OCR אינה תוכנה אלא טכנולוגיה. אחת התוכנות הנפוצות והידידותיות בתחום, כפי שכבר צוין:
Abbyy Finereader
(פיינרידר).

חשוב לדעת: כתב רש"י הוא דווקא כתב קל יותר לזיהוי כיון שרמת האותיות הזהות בו נמוכה יחסית, לעומת אותיות מרובעות בהן קיימים זוגות רבים, לדוגמא: ב-כ, ג-נ, ה-ח, ס-ם ועוד.

Re: שימוש בתכנת ocr

פורסם: ו' דצמבר 24, 2021 4:45 pm
על ידי בסדר
אני מחפש מישהו שיכול לסרוק ספר עם התוכנית של OCR וכדו' ולעבור עליו לתקן הטעיות שהתוכנה לא קרא כראוי, נא לפנות אלי באישי

Re: שימוש בתכנת ocr

פורסם: א' דצמבר 26, 2021 9:10 am
על ידי תא חזי
פרשת_דרכים כתב:חשוב לדעת: כתב רש"י הוא דווקא כתב קל יותר לזיהוי כיון שרמת האותיות הזהות בו נמוכה יחסית, לעומת אותיות מרובעות בהן קיימים זוגות רבים, לדוגמא: ב-כ, ג-נ, ה-ח, ס-ם ועוד.

אני עוסק בתחום הOCR הרבה, והתוכנות השונות, כולל ABBYY (ש"ירשה" את התמיכה המעולה שלה בעברית, לרבות רש"י, מתוכנת 'ליגטורה' הישראלית, זצ"ל) דווקא מתקשות להתמודד עם רש"י - כי שם יש, לא זוגות, אלא שלשות! של זהות, למשל ס-ם-פ (כן...), או ס-ם-ת, תלוי בסגנון הרש"י ובאיכות הסריקה וכו'.
לא משנה כמה 'נאמן' את התוכנה על אותו כתב, צריך לעבוד הרבה כדי לקבל משהו סביר.
דבר אחד שמפריע לי בABBYY, גם כשמאמנים אותה על כתב מסויים, יש לה מגבלה אחת מוסברת ואחת לא: אחת היא מסוגלת לקבל 100 גליפים שונים בלבד לכל סגנון מסמך, וזה מובן כי היא לא יכולה להכיל את זה שיאמנו אותה על גליפים רבים מאוד, אחרת זיהוי של כל חלק-תמונה ייקח שעות.
מגבלה שניה, ולא מוסברת, היא שאפילו אם נעבור על 200-300 דף ונאמן אותה עליהם, היא תברור אולי 5-20 תמונות אבטיפוס לכל גליף, שזה דל מאוד ובקושי מאפשר גמישות וזיהוי נכון. בעוד תוכנות OCR אחרות כמו של גוגל וכדו' (שלא מאפשרות OCR של ספרים שלמים למשתמשים, גם לא בתשלום, למיטב ידיעתי) - מתבססות על מאגר של מיליוני תמונות לכל גליף, שזה מאפשר יכולת זיהוי מדהימה להפליא. אבל כאן, לפחות לפי מה שאני רואה (ואולי אני עובד לא נכון) אין כמעט מבחר שכזה.

בסדר כתב:אני מחפש מישהו שיכול לסרוק ספר עם התוכנית של OCR וכדו' ולעבור עליו לתקן הטעיות שהתוכנה לא קרא כראוי, נא לפנות אלי באישי

המלצה אישית שלי, עדיף לקחת מישהו שיודע טוב לעבוד עם OCR, ויידע לאלף את התוכנה כראוי, להוציא ממנה את המקסימום כמה שאפשר, בלי הגהה.
ואת ההגהה אחר כך, עדיף לעשות בינך לבין עצמך - שאתה מכיר את הספר וכו', ואתה תזהה לבד את המאסות של האותיות/מילים שיש בהן טעויות קבועות, ותתקן אותן בסקירה אחת (לא בחיפוש והחלפה אחד! אלא בחיפוש רצוף של טעויות דומות וכו').

Re: שימוש בתכנת ocr

פורסם: ג' דצמבר 28, 2021 7:22 am
על ידי גבאי האוצר
בסדר כתב:אני מחפש מישהו שיכול לסרוק ספר עם התוכנית של OCR וכדו' ולעבור עליו לתקן הטעיות שהתוכנה לא קרא כראוי, נא לפנות אלי באישי

"המרת הטקסט המדוייקת"
053-31-92294

Re: שימוש בתכנת ocr

פורסם: א' פברואר 26, 2023 6:01 pm
על ידי ידען הספרים
אני מחפש מישהו שיכול לסרוק ספר גדול עם התוכנית של OCR וכדו', ולעבור עליו לתקן כל הטעיות שהתוכנה לא קרא כראוי.



נא לפנות אלי באישי.