עמוד 1 מתוך 1

שיפור הפענוח (OCR)

פורסם: ג' מרץ 19, 2013 10:57 pm
על ידי צמא לדעת
במקרה חיפשתי '+יוםף' באוצר וקיבלתי 50,316(!) תוצאות. כן יש 1,398 תוצאות ל'+יןצא', 5,217 תוצאות ל'+ךבי'. אינני בקיא בעניני OCR, אך מסתמא קל מאוד להגדיר שאותיות ךםןףץ אינם נמצאות באמצע מילה (כ"א לעתים נדירות), ואם יש אפשרות סבירה אחרת (כגון ס,ו,ר בנידו"ד) על התוכנה המפענחת לבחור בזו.
נדמה לי שרוב ככל השיבושים (עכ"פ בדפוסים חדשים או סריקות ברורות) הם דברים קטנים שכאלו שאפשר בקל לתקנם.

Re: שיפור הפענוח (OCR)

פורסם: ג' מרץ 19, 2013 11:07 pm
על ידי יאיר
יוסף, יוצא, רבי...

בדיסקשיח יש עדיין אופציית אותיות מתחלפות? התוצאות היו עם/בלי האופציה?

Re: שיפור הפענוח (OCR)

פורסם: ג' מרץ 19, 2013 11:10 pm
על ידי צמא לדעת
יאיר כתב:יוסף, יוצא, רבי...

בדיסקשיח יש עדיין אופציית אותיות מתחלפות? התוצאות היו עם/בלי האופציה?

כן.
בלי. (לאותיות מתחלפות יש תועלת בעיקר כשיודעים שכתוב משהו וצריכים רק למצוא, אחרת זה מעלה תוצאות מיותרות יותר מדי).

Re: שיפור הפענוח (OCR)

פורסם: ד' מרץ 20, 2013 8:59 am
על ידי צמא לדעת
וכן אפשר להוסיף להגדיר שאותיות כמנפצ אין מקומן בסוף התיבה כ"א לעתים רחוקות (אם כי לא כ"כ נדירות כסופיות באמצע), ובכך יתוקנו טעויות כמו '+הרכ' (93,666 תוצאות!), שצ"ל כמובן הרב.

Re: שיפור הפענוח (OCR)

פורסם: ד' מרץ 20, 2013 10:13 pm
על ידי יאיר
נ"ל דהנושא מורכב יותר ממה שכבודו סבור...

Re: שיפור הפענוח (OCR)

פורסם: ד' מרץ 20, 2013 10:14 pm
על ידי צמא לדעת
דהיינו?

Re: שיפור הפענוח (OCR)

פורסם: ד' מרץ 20, 2013 11:01 pm
על ידי יאיר
אכן מה שכתבת להגדיר דלא יהיה בחיפוש כ' סופית באמצע מילה או כ' רגילה בסוף מילה הוא דבר הניתן לתכנות בקלות לכאורה, אך לתכנת דלא יהיה רק לעיתים רחוקות, דבר זה כמעט בלתי אפשרי דאיך תזהה תוכנת המחשב מתי כן ומתי לא?

Re: שיפור הפענוח (OCR)

פורסם: ד' מרץ 20, 2013 11:20 pm
על ידי צמא לדעת
בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.
כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.

Re: שיפור הפענוח (OCR)

פורסם: ד' מרץ 20, 2013 11:26 pm
על ידי יאיר
תודה רבה. החכמתני.

Re: שיפור הפענוח (OCR)

פורסם: ב' אפריל 29, 2013 10:38 am
על ידי רחמים
צמא לדעת כתב:בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.


נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.

Re: שיפור הפענוח (OCR)

פורסם: ב' אפריל 29, 2013 11:20 am
על ידי אוצר החכמה
צודק.
ואפילו בסריקה חדשה הגישה לאלגוריתמים של השיקולים מאד מורכבת (ולא תמיד המתכנתים של מערכות ה OCR שאנו מתבססים עליהם יכולים או רוצים לתת את כל האינפורמציה) כך שהעניין לא כ"כ קל.

מכל מקום כמו שהזכרתי אנחנו עובדים על משהו שמשפר את ה OCR וכבר חלק לא קטן מהספרים עברו דרך המערכת, כך שאנו מקווים שבגירסה 12 יהיה שיפור נוסף בתחום זה ג"כ.

מצד שני יש מקום לשיקולים שאינם 100% בהערכת רמת התוצאה וזה גם אחד התחומים המתפתחים בתכנה.

Re: שיפור הפענוח (OCR)

פורסם: ב' אפריל 29, 2013 11:59 am
על ידי צמא לדעת
רחמים כתב:
צמא לדעת כתב:בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.


נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.


אכן כוונתי היתה בשעת סריקה. (לתומי חשבתי שגם הפענוח נעשה ע"י מערכת אוצה"ח, וכבר בירר הרב אוצה"ח שהמערכת מורכבת יותר).

אוצר החכמה כתב:מכל מקום כמו שהזכרתי אנחנו עובדים על משהו שמשפר את ה OCR וכבר חלק לא קטן מהספרים עברו דרך המערכת, כך שאנו מקווים שבגירסה 12 יהיה שיפור נוסף בתחום זה ג"כ.

מצד שני יש מקום לשיקולים שאינם 100% בהערכת רמת התוצאה וזה גם אחד התחומים המתפתחים בתכנה.


משמח ביותר, יישר כוחכם!

Re: שיפור הפענוח (OCR)

פורסם: ד' מאי 01, 2013 9:19 pm
על ידי יושבספר
רחמים כתב:נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.

אין צורך לסרוק מחדש, אלא רק לפענח את הסריקות הקיימות מחדש.

Re: שיפור הפענוח (OCR)

פורסם: ד' מאי 01, 2013 10:10 pm
על ידי אוצר החכמה
הוא לא התכוון לסרוק את התמונות אלא להפעיל פענוח OCR מחדש

Re: שיפור הפענוח (OCR)

פורסם: ו' מאי 03, 2013 3:49 pm
על ידי רוני
דשנו בזה מעט בזמנו
http://www.otzar.org/forums/viewtopic.php?f=11&t=962&p=26235#p26235

כמו כן, מה יקרה אם אחר אות סופית יש סימון ניקוד כלשהוא כגון סימן קריאה, נקודה, פסיק, סתם קו שחור, כפל בדף שמזוהה כתו,
גם אז הפענוח יזהה שמדובר באמצע מילה ולא בסיום מילה וכו' וכו'.

וישנם עוד דוגמאות.

כולי תקווה שיום אחד כל מערכות ה OCR יעבדו מול מילונים מלאים ומסודרים, ואז ההסתברות לפענוח מילה תוכרע ע"פ בדיקה במילון,
וכן השוואה למילים הסמוכות, דהיינו כמשפט, אם יהיה כתוב "מוקצה בשבת" והדפוס הוא בעל אותיות שבורות ויזוהה בפענוח הראשוני כ"מוחצה בשבת", אזי התוכנה תזהה את המילים המתאימות הנכונות והראויות - למרות איכות הדפוס \ הסריקה.
גם כאן, צריך להזהר, כל דבר גורף, הרי הוא בחזקת הסכנה.

Re: שיפור הפענוח (OCR)

פורסם: ו' מאי 03, 2013 5:06 pm
על ידי רחמים
רוני כתב:כולי תקווה שיום אחד כל מערכות ה OCR יעבדו מול מילונים מלאים ומסודרים, ואז ההסתברות לפענוח מילה תוכרע ע"פ בדיקה במילון,
וכן השוואה למילים הסמוכות, דהיינו כמשפט, אם יהיה כתוב "מוקצה בשבת" והדפוס הוא בעל אותיות שבורות ויזוהה בפענוח הראשוני כ"מוחצה בשבת", אזי התוכנה תזהה את המילים המתאימות הנכונות והראויות - למרות איכות הדפוס \ הסריקה.
גם כאן, צריך להזהר, כל דבר גורף, הרי הוא בחזקת הסכנה.


לעבוד מול מילון זהו בעיה קשה משום שמילים בודדות בלשון הקודש ובארמית יש בסביבות 400 אלף! כאשר כל מילה שונה מחברתה כמובן, כך יצא לי כאשר בניתי תוכנת ניקוד אוטומטי וזו הכמות של מילים שהיתי צריך להכניס לתוכנה, אם תוריד מזה את המילים שהאותיות שלהן שוות ושונים רק בניקוד תגיע בערך ל200 אלף, עד כאן מילים בודדות, אבל כאשר תרצה שיהיו במילון צירופי מילים וכמו 'מוקצה בשבת' הרי שהכמות תעלה ל 200 אלף כפול 30 עבור זוגות של מילים וכפול עוד 30 עבור שלישיות של מילים וכו' ! כיון שלכל מילה ומילה מה- 200 אלף יש כמה וכמה צירופי מילים ששייך לעשות. [כך נראה לי החשבון אולי אני טועה?] כך שכל מילה נסרקת צריכה להיבדק מול מילון עם כמה מליוני ערכים והפיענוח יערוך מאוד הרבה זמן.

לי נראה שכיון הפיתוח של הOCR צריך להיות לשפר את ניתוח של התמונה שכמו שכל אחד מאיתנו רואה אות ומזהה אותה כך גם
המחשב יידע לבדוק את הפיקסילים של התמונה ולזהות את האות, ויש לזה כמה שיטות כידוע רק צריך לפתח אותם יותר.

Re: שיפור הפענוח (OCR)

פורסם: ו' מאי 03, 2013 6:53 pm
על ידי רוני
רחמים היקר,

ראשית, תחום ה OCR מאוד מעניין ומרתק אותי ואשמח להפניות לגבי מה שכתבת, כיוונים שונים וכו'.

שנית, כוונתי ברעיון לא היתה שכל אדם בעת החיפוש ייאלץ להמתין למערכת סבוכה של פענוח,
אלא הפענוח נעשה פעם אחת במשרדי אוצר החכמה (ואין חשיבות כל כך לכמה זמן לוקח הפענוח),
כי הרי בשורה התחתונה כשאדם עושה חיפוש באוצר אז אין כאן פענוח OCR, יש כאן אחזור המידע שפוענח וכבר קיים במסד הנתונים. למיטב הבנתי.

Re: שיפור הפענוח (OCR)

פורסם: ו' מאי 03, 2013 7:05 pm
על ידי רחמים
תוכל לחפש בMSDN יש מלא חומר וקישורים ודיונים.
למשל http://social.msdn.microsoft.com/Search ... y=OCR&ac=4