עמוד 1 מתוך 1

שיתוף פיענוח OCR

פורסם: ב' ינואר 14, 2013 8:41 pm
על ידי רחמים
כיון שפיענוח הOCR אינו מדוייק ברוב המקרים והרבה מהמשתמשים מעוניינים דווקא בטקסט וממילא עוברים מילה מילה ומתקנים.
אך דא עקא שבפעם הבאה שהם צריכים את אותו הקטע הם צריכים שוב לעבור עליו מילה ומילה וכן אנשים אחרים שצריכים את אותו הקטע גם כן צריכים לפענח אותו , היה מאוד טוב אם פיענוח מתוקן זה היה נשמר ונשלח במייל למערכת האוצר וכך היו מתאספים אלפי אלפי קטעים שבהם שגיאות הOCR מתוקנות ובגירסה הבאה היה מוציאם את כל אותם המקומות עם התיקנים וכך החיפושים יהיו הרבה יותר טובים וגם כולם יהנו מכולם. או שאפשר לפרסם מדי פעם איזה קובץ עידכון שמחליף פיענוח ישן במתוקן וכך מדי פעם אחר שתתאסף כמות ראויה של קטעים מתוקנים ייצא עידכון לOCR וכל אחד יוריד לעצמו ויתקין וכך התיקנים יהיו משותפים וכולם ירויחו.

לדעתי אם רעיון זה ייצא לפועל תוך זמן קצר רוב הספרים המבוקשים יעברו הגה ותיקון ורמת כל האוצר תהיה שונה שהרי כל מה שיש להעדיף היום את התוכנות המוקלדות כמו בר אילן על פני האוצר זה משום אי דיוק הOCR.

Re: שיתוף פיענוח OCR

פורסם: ב' ינואר 14, 2013 9:11 pm
על ידי פלתי
רעיון מצויין. גם אנכי הקטן מצטרף.

Re: שיתוף פיענוח OCR

פורסם: ב' ינואר 14, 2013 9:57 pm
על ידי מפנה קופות לאוצר
דפח"ח!!

רעיון אדיר ומצוין!

והזריזות בזה יפה.

Re: שיתוף פיענוח OCR

פורסם: ב' ינואר 14, 2013 9:59 pm
על ידי יאיר
ברור שהדבר מבורך ואף הוצע בעבר מס' פעמים.

Re: שיתוף פיענוח OCR

פורסם: ב' ינואר 14, 2013 10:04 pm
על ידי צדק צדק תרדוף
גם אני מברך על החידוש הנ"ל.

רעיון כל כך נפלא!!!!!!
חייבים להתחיל עם זה, לפחות בתור נסיון!!!!!!!!

Re: שיתוף פיענוח OCR

פורסם: ב' ינואר 14, 2013 10:25 pm
על ידי ידידך - נעים ההליכות
תיכף לתלמיד חכם - ברכה.
מצטרף להנ"ל.

רעיון מבורך.

ומה טוב אם יביעו דעתם אנשי המערכת של האוצר החכמה. מדוע לא נעשה דבר כל כך נפלא וטוב עד היום. כי זה פלא?
זה פשוט יועיל ביותר לחפש בספרים עתיקים למשל, שהחיפוש בהם קשה. וירווח לכולנו מאוד. וכמה טוב הדבר

Re: שיתוף פיענוח OCR

פורסם: ג' ינואר 15, 2013 12:01 am
על ידי הגיון אמתי
הנ"ל דברי טעם.
וכדאי שתהיה יצירה בסגנון הזה.

Re: שיתוף פיענוח OCR

פורסם: ג' ינואר 15, 2013 7:26 am
על ידי אוצר החכמה
הרעיון טוב אבל הדבר קצת יותר מורכב, שכן המשתמש גוזר קטע לפי צרכיו, וכדי להשתמש בו יש צורך לדעת את מיקום המילים המתוקנות בספר המקורי (ולייחס אותם ע"ג התמונה) כדי שיהיה בזה באמת תועלת, ננסה לבחון את העניין, באיזה אופן אפשר לעשותו, ומה הדרך המועילה.

Re: שיתוף פיענוח OCR

פורסם: ג' ינואר 15, 2013 10:18 am
על ידי פשוט
רחמים שכח להדגיש שהבעיה היא רק בכתב רש"י או ספרים ישנים, ובטקסט מרובע אין כל בעיה בפענוח ובחיפוש. ויש היום מספיק תוכנות בשוק שעושים את ההמרה להפליא תוך שניות ואין בזה כל עדיפות לבר אילן.

Re: שיתוף פיענוח OCR

פורסם: ג' ינואר 15, 2013 11:50 am
על ידי צמא לדעת
אוצר החכמה כתב:הרעיון טוב אבל הדבר קצת יותר מורכב, שכן המשתמש גוזר קטע לפי צרכיו, וכדי להשתמש בו יש צורך לדעת את מיקום המילים המתוקנות בספר המקורי (ולייחס אותם ע"ג התמונה) כדי שיהיה בזה באמת תועלת, ננסה לבחון את העניין, באיזה אופן אפשר לעשותו, ומה הדרך המועילה.


לכאורה א"צ לדעת המיקום (מלבד מספר העמוד והספר כמובן), אפשר לשלוח התמונה ביחד עם הטקסט, ובמשרדי אוצה"ח המחשב תחפש התמונה בתוך העמוד ותשנה הטקסט בהתאם. כמדומה זה פשוט בהרבה.

Re: שיתוף פיענוח OCR

פורסם: ג' ינואר 15, 2013 12:13 pm
על ידי רחמים
צמא לדעת כתב:לכאורה א"צ לדעת המיקום (מלבד מספר העמוד והספר כמובן), אפשר לשלוח התמונה ביחד עם הטקסט, ובמשרדי אוצה"ח המחשב תחפש התמונה בתוך העמוד ותשנה הטקסט בהתאם. כמדומה זה פשוט בהרבה.


אז אם בסופו של דבר המחשב יצטרך לחפש את התמונה בתוך העמוד עדיף שזה ייעשה במחשב של המשתמש וכך לא יצטרך לשלוח גם את התמונה וגם את הטקסט שהרי תמונות תופסות המון זיכרון ביחס לטקסט.
בכל אופן בתיכנות השמים הם הגבול - מנסיון.

Re: שיתוף פיענוח OCR

פורסם: ג' ינואר 15, 2013 12:29 pm
על ידי רחמים
אוצר החכמה כתב:הרעיון טוב אבל הדבר קצת יותר מורכב, שכן המשתמש גוזר קטע לפי צרכיו, וכדי להשתמש בו יש צורך לדעת את מיקום המילים המתוקנות בספר המקורי (ולייחס אותם ע"ג התמונה) כדי שיהיה בזה באמת תועלת, ננסה לבחון את העניין, באיזה אופן אפשר לעשותו, ומה הדרך המועילה.


יש לנו למעשה שלוש מחרוזות טקסט:
1. הטקסט של אותו העמוד
2. הטקסט של המסגרת שאותה בחר המשתמש
3. הטקסט המתוקן שהגיה המשתמש

וא''כ אין צורך לחפש את המסגרת הגרפית שבחר המשתמש בתוך התמונה של העמוד אלא ישירות למצוא את טקסט 2 בתוך טקסט 1 ולהחליף אותו בטקסט 3. כמובן אם המשתמש לא בחר מעט מידי מילים שאחרת אפשר למצוא אותם כמה פעמים בתוך טקסט העמוד וזה ייצור באג.

Re: שיתוף פיענוח OCR

פורסם: ג' ינואר 15, 2013 6:23 pm
על ידי פלתי
רחמים כתב:יש לנו למעשה שלוש מחרוזות טקסט:
1. הטקסט של אותו העמוד
2. הטקסט של המסגרת שאותה בחר המשתמש
3. הטקסט המתוקן שהגיה המשתמש
וא''כ אין צורך לחפש את המסגרת הגרפית שבחר המשתמש בתוך התמונה של העמוד אלא ישירות למצוא את טקסט 2 בתוך טקסט 1 ולהחליף אותו בטקסט 3. כמובן אם המשתמש לא בחר מעט מידי מילים שאחרת אפשר למצוא אותם כמה פעמים בתוך טקסט העמוד וזה ייצור באג.

לפעמים כתובה מילה אחת מחוברת וצריך להחליפה לשתי מילים, וכיון שמספר המילים של המשתמש אינו תואם את מספר המילים הקיים, אי אפשר עוד לקבוע באופן אוטומטי את המיקום של הסימון הצהוב. כנראה שצריך לכתוב תוכנה מיוחדת עבור זה, שהכותב יכול לכתוב כאילו על גבי המילים שבתמונה. כאין האפשרות להגיה את הטקסט המצוי כבר באוצר.

Re: שיתוף פיענוח OCR

פורסם: ג' ינואר 15, 2013 6:48 pm
על ידי אוצר החכמה
אתה צודק, העניין הוא שזה גם צריך להיות נוח למשתמשים למטרה העכשוית שלהם כי אם זה לא יהיה נוח לצורך שלהם כרגע, אנשים לא ישבו ויתקנו רק לצורך עתידי.

Re: שיתוף פיענוח OCR

פורסם: ג' ינואר 15, 2013 8:24 pm
על ידי פלתי
אוצר החכמה כתב:אתה צודק, העניין הוא שזה גם צריך להיות נוח למשתמשים למטרה העכשוית שלהם כי אם זה לא יהיה נוח לצורך שלהם כרגע, אנשים לא ישבו ויתקנו רק לצורך עתידי.

אכן. על זה נאמר אליה וקוץ בה.

Re: שיתוף פיענוח OCR

פורסם: ג' ינואר 15, 2013 8:54 pm
על ידי אוצר החכמה
ננסה לחפש פתרון טוב לעניין