פורום אוצר החכמה

פורסם: **ג' מרץ 19, 2013 10:57 pm**

במקרה חיפשתי '+יוםף' באוצר וקיבלתי 50,316(!) תוצאות. כן יש 1,398 תוצאות ל'+יןצא', 5,217 תוצאות ל'+ךבי'. אינני בקיא בעניני OCR, אך מסתמא קל מאוד להגדיר שאותיות ךםןףץ אינם נמצאות באמצע מילה (כ"א לעתים נדירות), ואם יש אפשרות סבירה אחרת (כגון ס,ו,ר בנידו"ד) על התוכנה המפענחת לבחור בזו.
נדמה לי שרוב ככל השיבושים (עכ"פ בדפוסים חדשים או סריקות ברורות) הם דברים קטנים שכאלו שאפשר בקל לתקנם.

פורסם: **ג' מרץ 19, 2013 11:07 pm**

יוסף, יוצא, רבי...

בדיסקשיח יש עדיין אופציית אותיות מתחלפות? התוצאות היו עם/בלי האופציה?

פורסם: **ג' מרץ 19, 2013 11:10 pm**

יאיר כתב:יוסף, יוצא, רבי...

בדיסקשיח יש עדיין אופציית אותיות מתחלפות? התוצאות היו עם/בלי האופציה?

כן.
בלי. (לאותיות מתחלפות יש תועלת בעיקר כשיודעים שכתוב משהו וצריכים רק למצוא, אחרת זה מעלה תוצאות מיותרות יותר מדי).

פורסם: **ד' מרץ 20, 2013 8:59 am**

וכן אפשר להוסיף להגדיר שאותיות כמנפצ אין מקומן בסוף התיבה כ"א לעתים רחוקות (אם כי לא כ"כ נדירות כסופיות באמצע), ובכך יתוקנו טעויות כמו '+הרכ' (93,666 תוצאות!), שצ"ל כמובן הרב.

פורסם: **ד' מרץ 20, 2013 10:13 pm**

נ"ל דהנושא מורכב יותר ממה שכבודו סבור...

פורסם: **ד' מרץ 20, 2013 10:14 pm**

דהיינו?

פורסם: **ד' מרץ 20, 2013 11:01 pm**

אכן מה שכתבת להגדיר דלא יהיה בחיפוש כ' סופית באמצע מילה או כ' רגילה בסוף מילה הוא דבר הניתן לתכנות בקלות לכאורה, אך לתכנת דלא יהיה רק לעיתים רחוקות, דבר זה כמעט בלתי אפשרי דאיך תזהה תוכנת המחשב מתי כן ומתי לא?

פורסם: **ד' מרץ 20, 2013 11:20 pm**

בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.
כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.

פורסם: **ד' מרץ 20, 2013 11:26 pm**

תודה רבה. החכמתני.

פורסם: **ב' אפריל 29, 2013 10:38 am**

צמא לדעת כתב:בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.

נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.

פורסם: **ב' אפריל 29, 2013 11:20 am**

צודק.
ואפילו בסריקה חדשה הגישה לאלגוריתמים של השיקולים מאד מורכבת (ולא תמיד המתכנתים של מערכות ה OCR שאנו מתבססים עליהם יכולים או רוצים לתת את כל האינפורמציה) כך שהעניין לא כ"כ קל.

מכל מקום כמו שהזכרתי אנחנו עובדים על משהו שמשפר את ה OCR וכבר חלק לא קטן מהספרים עברו דרך המערכת, כך שאנו מקווים שבגירסה 12 יהיה שיפור נוסף בתחום זה ג"כ.

מצד שני יש מקום לשיקולים שאינם 100% בהערכת רמת התוצאה וזה גם אחד התחומים המתפתחים בתכנה.

פורסם: **ב' אפריל 29, 2013 11:59 am**

רחמים כתב:
צמא לדעת כתב:בשנים קדמוניות באמת לא היה מקום לחישובים שכאלו, שהמחשב היה פשוט 'רואה' ומדמה להידוע לו, אך בזמנינו כל ענין OCR (וביותר ICR) מבוסס על רמת הסבירות וההסתברות בכמה אופנים וחישובים שונים, והמחשב מחליט אם אות מסוים היא 'כ' או 'ב' לפי רמת הסבירות הגבוהה יותר. וא"כ אפשר להגדיר לדוגמא שיש %85 סבירות שאין כמנפצ בסוף מילה, ושיש %95 סבירות שאין ךםןףץ באמצע. ונמצא שכשהאות נראית בוודאות 'כ', המחשב יחליט על 'כ' גם כשהיא בסוף, וכשזה רק 'נראה יותר', ההגדרה הנ"ל תכריע.כנ"ל איני מומחה, אך כך לפחות הבנתי את זה, ואשמח לקבל הכחשה או אישור ממתכנתי האוצר שליט"א.

נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.

אכן כוונתי היתה בשעת סריקה. (לתומי חשבתי שגם הפענוח נעשה ע"י מערכת אוצה"ח, וכבר בירר הרב אוצה"ח שהמערכת מורכבת יותר).

אוצר החכמה כתב:מכל מקום כמו שהזכרתי אנחנו עובדים על משהו שמשפר את ה OCR וכבר חלק לא קטן מהספרים עברו דרך המערכת, כך שאנו מקווים שבגירסה 12 יהיה שיפור נוסף בתחום זה ג"כ.

מצד שני יש מקום לשיקולים שאינם 100% בהערכת רמת התוצאה וזה גם אחד התחומים המתפתחים בתכנה.

משמח ביותר, יישר כוחכם!

פורסם: **ד' מאי 01, 2013 9:19 pm**

רחמים כתב:נראה לי שכדי לבצע ברירה כזו בתוך החומר צריך לסרוק מחדש את כל האוצר כדי לראות האם האות נראית יותר כך או יותר אחרת אחרת ולחשבן את ההיסתברות ואם לא רוצים לסרוק מחדש צריך כללים של 100% וכמו שהעיר הר' יאיר.

אין צורך לסרוק מחדש, אלא רק לפענח את הסריקות הקיימות מחדש.

פורסם: **ד' מאי 01, 2013 10:10 pm**

הוא לא התכוון לסרוק את התמונות אלא להפעיל פענוח OCR מחדש

פורסם: **ו' מאי 03, 2013 3:49 pm**

דשנו בזה מעט בזמנו
http://www.otzar.org/forums/viewtopic.php?f=11&t=962&p=26235#p26235

כמו כן, מה יקרה אם אחר אות סופית יש סימון ניקוד כלשהוא כגון סימן קריאה, נקודה, פסיק, סתם קו שחור, כפל בדף שמזוהה כתו,
גם אז הפענוח יזהה שמדובר באמצע מילה ולא בסיום מילה וכו' וכו'.

וישנם עוד דוגמאות.

כולי תקווה שיום אחד כל מערכות ה OCR יעבדו מול מילונים מלאים ומסודרים, ואז ההסתברות לפענוח מילה תוכרע ע"פ בדיקה במילון,
וכן השוואה למילים הסמוכות, דהיינו כמשפט, אם יהיה כתוב "מוקצה בשבת" והדפוס הוא בעל אותיות שבורות ויזוהה בפענוח הראשוני כ"מוחצה בשבת", אזי התוכנה תזהה את המילים המתאימות הנכונות והראויות - למרות איכות הדפוס \ הסריקה.
גם כאן, צריך להזהר, כל דבר גורף, הרי הוא בחזקת הסכנה.

פורסם: **ו' מאי 03, 2013 5:06 pm**

רוני כתב:כולי תקווה שיום אחד כל מערכות ה OCR יעבדו מול מילונים מלאים ומסודרים, ואז ההסתברות לפענוח מילה תוכרע ע"פ בדיקה במילון,
וכן השוואה למילים הסמוכות, דהיינו כמשפט, אם יהיה כתוב "מוקצה בשבת" והדפוס הוא בעל אותיות שבורות ויזוהה בפענוח הראשוני כ"מוחצה בשבת", אזי התוכנה תזהה את המילים המתאימות הנכונות והראויות - למרות איכות הדפוס \ הסריקה.
גם כאן, צריך להזהר, כל דבר גורף, הרי הוא בחזקת הסכנה.

לעבוד מול מילון זהו בעיה קשה משום שמילים בודדות בלשון הקודש ובארמית יש בסביבות 400 אלף! כאשר כל מילה שונה מחברתה כמובן, כך יצא לי כאשר בניתי תוכנת ניקוד אוטומטי וזו הכמות של מילים שהיתי צריך להכניס לתוכנה, אם תוריד מזה את המילים שהאותיות שלהן שוות ושונים רק בניקוד תגיע בערך ל200 אלף, עד כאן מילים בודדות, אבל כאשר תרצה שיהיו במילון צירופי מילים וכמו 'מוקצה בשבת' הרי שהכמות תעלה ל 200 אלף כפול 30 עבור זוגות של מילים וכפול עוד 30 עבור שלישיות של מילים וכו' ! כיון שלכל מילה ומילה מה- 200 אלף יש כמה וכמה צירופי מילים ששייך לעשות. [כך נראה לי החשבון אולי אני טועה?] כך שכל מילה נסרקת צריכה להיבדק מול מילון עם כמה מליוני ערכים והפיענוח יערוך מאוד הרבה זמן.

לי נראה שכיון הפיתוח של הOCR צריך להיות לשפר את ניתוח של התמונה שכמו שכל אחד מאיתנו רואה אות ומזהה אותה כך גם
המחשב יידע לבדוק את הפיקסילים של התמונה ולזהות את האות, ויש לזה כמה שיטות כידוע רק צריך לפתח אותם יותר.

פורסם: **ו' מאי 03, 2013 6:53 pm**

רחמים היקר,

ראשית, תחום ה OCR מאוד מעניין ומרתק אותי ואשמח להפניות לגבי מה שכתבת, כיוונים שונים וכו'.

שנית, כוונתי ברעיון לא היתה שכל אדם בעת החיפוש ייאלץ להמתין למערכת סבוכה של פענוח,
אלא הפענוח נעשה פעם אחת במשרדי אוצר החכמה (ואין חשיבות כל כך לכמה זמן לוקח הפענוח),
כי הרי בשורה התחתונה כשאדם עושה חיפוש באוצר אז אין כאן פענוח OCR, יש כאן אחזור המידע שפוענח וכבר קיים במסד הנתונים. למיטב הבנתי.

פורסם: **ו' מאי 03, 2013 7:05 pm**

תוכל לחפש בMSDN יש מלא חומר וקישורים ודיונים.
למשל http://social.msdn.microsoft.com/Search ... y=OCR&ac=4

פורום אוצר החכמה

שיפור הפענוח (OCR)

שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)

Re: שיפור הפענוח (OCR)