מפרשי האוצר
חיפוש גוגל בפורום:

OCR שבפידיאף - הטובה היא אם רעה

שיח עורכי ספרים והעוסקים במלאכת הקודש. שאלות, הצעות, עזרה בקריאת כת"י, פתרון וסיוע לבעיות טכניות הקשורות בהפעלת המחשב והתכנות הנלוות
צמא לדעת
הודעות: 299
הצטרף: א' ספטמבר 11, 2011 4:48 pm

OCR שבפידיאף - הטובה היא אם רעה

הודעהעל ידי צמא לדעת » ו' ינואר 18, 2013 9:26 am

כידוע יש ספרים שהפענוח בהם משובש למאוד, ויצא שכרן בהפסדן, ומשו"ה אין בהם אפשרות חיפוש באוצר. לקראת עדכון 11, אשר גולת הכותרת בה (לדידי) אפשרות הוספת קבצי פידיאף פרטיים, כתבו כן במדריך למשתמש, שיש לבדוק מקודם אם הפענוח משובש מדי, ואז להוסיפו בלי אפשרות חיפוש.

ובכן, האם אין דרך קצרה/קלה/מדויקת/אוטומטית יותר לבדוק את זה מאשר לעבור על כל (אלפי) הקבצים אחד אחד, להעתיק ולהדבק ולקרות? האם באמת כך עושים את זה באוצר? אודה לכל מי שיחכימני.

ובהזדמנות זו אזכיר עוה"פ מה שכבר ביקשו, לתת אפשרות לחפש גם באותן ספרים שאינם בחיפוש הכללי, כאשר המשתמש בוחר אותן ספרים מסויימים.

סמל אישי של המשתמש
רחמים
הודעות: 1633
הצטרף: ג' נובמבר 01, 2011 12:28 pm
מיקום: http://yakobov-dev.co.il/
יצירת קשר:

Re: OCR שבפידיאף - הטובה היא אם רעה

הודעהעל ידי רחמים » ו' ינואר 18, 2013 9:39 am

תכניס את כל הקבצים עם אפשרות חיפוש, ואם אין טקסט בקבצים מסויימים או שהוא לא קריא הרי שאף אם תחפש בו ע''י האוצר לא תמצא כלום בכל מקרה, ולא הפסדת כלום בזה רק אולי שאם יש טקסט לא קריא והוא יכנס לחיפוש זה יקח מעט זיכרון, אבל אם זה שיקול של לעבור על כל הספרים שווה להקריב קצת זכרון בשביל זה.
למי שרוצה לדעת אם תרצו להכניס לתוך האוצר את כל ההיברו בוקס שזה כמו 350 גיגה ספרים צריך לזה בין 30 ל 40 גיגה של אינדקס כדי לעשות חיפוש באוצר וזה לוקח משהו כמו 24 שעות כדי לבנות כזה אינדקס חוץ מהזמן שיקח לתוכנה להפוך כל קובץ PDF לקובץ של ספרי האוצר.

צמא לדעת
הודעות: 299
הצטרף: א' ספטמבר 11, 2011 4:48 pm

Re: OCR שבפידיאף - הטובה היא אם רעה

הודעהעל ידי צמא לדעת » ו' ינואר 18, 2013 9:58 am

השאלה היא אם זה יאיט את החיפוש יותר מדי, או שיתקבלו false-positives (תוצאות שאין בהם מה שחיפשתי, כמו שיש בה"ב למכביר... דוגמא מצחיקה)

רחמים כתב:למי שרוצה לדעת אם תרצו להכניס לתוך האוצר את כל ההיברו בוקס שזה כמו 350 גיגה ספרים צריך לזה בין 30 ל 40 גיגה של אינדקס כדי לעשות חיפוש באוצר וזה לוקח משהו כמו 24 שעות כדי לבנות כזה אינדקס חוץ מהזמן שיקח לתוכנה להפוך כל קובץ PDF לקובץ של ספרי האוצר.


מעניין.
אך אם תנכה מזה כל הספרים שישנם כבר באוצר, וכל הכפיליות, וכל מה שאין בו טעם ותועלת, זה יעלה (להערכתי) לכל היותר 25 - 50 גיגה ספרים.

סמל אישי של המשתמש
רחמים
הודעות: 1633
הצטרף: ג' נובמבר 01, 2011 12:28 pm
מיקום: http://yakobov-dev.co.il/
יצירת קשר:

Re: OCR שבפידיאף - הטובה היא אם רעה

הודעהעל ידי רחמים » ו' ינואר 18, 2013 11:53 am

אז אולי אחר שתברור את כל ההירו בוקס תוציא רשימה של כל הספרים שכדאי להכניס לאוצר ותפרסם רשימה זו כאן, ואולי יהיה אפשר לכתוב גם איזה תוכנה שתעבור על הרשימה ותכניס קובץ קובץ לתוך האוצר וכך גם מי שלא ברר את ההיברו בוקס התוכנה תעבור על כל קבצי הPDF ותכניס לאוצר רק מתוך הרשימה, ונמצאנו מזכים את הרבים!

או אחר שכל הספרים שכדאי להוסיף יהיו אצלך במקום אחד אפשר לסרוק את אותה תקיה ולשלוף את כל שמות קבצי הPDF ולבנות כך את הרשימה הנ''ל של הספרים שכדאי להכניס לאוצר.

צמא לדעת
הודעות: 299
הצטרף: א' ספטמבר 11, 2011 4:48 pm

Re: OCR שבפידיאף - הטובה היא אם רעה

הודעהעל ידי צמא לדעת » ו' ינואר 18, 2013 12:40 pm

זהו בערך מה שרציתי לעשות באשכול זה (מעט מעט), אך כנראה רבו עלי חבירי.
קשה לכתוב רשימה כזו בצורה החלטית, כיון שכל אחד והטעם שלו, ומ"מ יש דברים טובים לרוב בנ"א ויש דברים שאינם שוים כלום מלבד ל'משוגעים לדבר'. גם יש לציין שא"א להוריד מאתר ה"ב יותר מ41 ספרים תוך 24 שעות.
עברתי מזמן על רוב הספרים שבה"ב (מלבד הספרים המתחילים באותיות ה' מ' א' ורוב אות ב'), ורשמתי הנראה לי, מסתמא יש טעותים לשני הצדדים (ספרים טובים גם לטעמי שהושמטו ולהיפך), אך רובו ככולו משקף טעמי (כ1450 ספרים). אם וכאשר אשלים הרשימה אין לי בעיה להעלותה כאן בל"נ.

סמל אישי של המשתמש
רחמים
הודעות: 1633
הצטרף: ג' נובמבר 01, 2011 12:28 pm
מיקום: http://yakobov-dev.co.il/
יצירת קשר:

Re: OCR שבפידיאף - הטובה היא אם רעה

הודעהעל ידי רחמים » ש' ינואר 19, 2013 9:57 pm

אני חושב שצריכה להיות רשימה בסיסית של כל הספרים שקיימים בהיבור בוקס ולא נמצאים באוצר,
וכל אחד יקח את הרשימה הבסיסית וימחוק משם מה שלא מתאים לו ומה שנשאר תהיה תוכנה שתכניס את קבצים הPDF לתוך האוצר. אם הקבצים כבר קיימים אצלו בדיסק קשיח אז פשוט למצוא אותם ולהעתיק לתקיה אחת מסודרת ואם אין לו את הקבצים אז להוריד אותם מהאתר של היברו בוקס לתקיה מסודרת.

אוהב אוצר
הודעות: 2997
הצטרף: ו' יולי 02, 2010 12:40 am

Re: OCR שבפידיאף - הטובה היא אם רעה

הודעהעל ידי אוהב אוצר » א' ינואר 20, 2013 1:45 am

רחמים כתב:תכניס את כל הקבצים עם אפשרות חיפוש, ואם אין טקסט בקבצים מסויימים או שהוא לא קריא הרי שאף אם תחפש בו ע''י האוצר לא תמצא כלום בכל מקרה, ולא הפסדת כלום בזה רק אולי שאם יש טקסט לא קריא והוא יכנס לחיפוש זה יקח מעט זיכרון, אבל אם זה שיקול של לעבור על כל הספרים שווה להקריב קצת זכרון בשביל זה.
למי שרוצה לדעת אם תרצו להכניס לתוך האוצר את כל ההיברו בוקס שזה כמו 350 גיגה ספרים צריך לזה בין 30 ל 40 גיגה של אינדקס כדי לעשות חיפוש באוצר וזה לוקח משהו כמו 24 שעות כדי לבנות כזה אינדקס חוץ מהזמן שיקח לתוכנה להפוך כל קובץ PDF לקובץ של ספרי האוצר.


תוכל להסביר יותר? לא הבנתי מה עושים ומה תהיה התוצאה, אבל לפי ההסבר זה נשמע מועיל ולכן אם תוכל ל'פשט' יותר.

חובב_ספרים
הודעות: 1067
הצטרף: ד' אוקטובר 31, 2012 12:08 am

Re: OCR שבפידיאף - הטובה היא אם רעה

הודעהעל ידי חובב_ספרים » א' ינואר 20, 2013 8:43 am

יש להוסיף לכל רשימה ספרים שישנם באוצר אבל בכל זאת עדיף לחפש בקובץ מהברובוקס. לדוגמא שו"ת פרי תבואה הנמצא באוצר אבל בלי חיפוש, או דעת קדושים על הל' שחיטה שנסרק באוצר באופן גרועה ודומני גם חסר הרבה עמודים.
רעיון אולי יותר טוב הוא לקנות הדיסק קשיח של הברובוקס. זה לא יקר, משהו כמו מאה דוללאר, והשילוב בין הספרים של הברובוקס עם הספרים והחיפוש של אוצה"ח יכול להיות מצוין. השאלה היא אם זה אפשרי ופרקטי?

סמל אישי של המשתמש
רחמים
הודעות: 1633
הצטרף: ג' נובמבר 01, 2011 12:28 pm
מיקום: http://yakobov-dev.co.il/
יצירת קשר:

Re: OCR שבפידיאף - הטובה היא אם רעה

הודעהעל ידי רחמים » א' ינואר 20, 2013 4:58 pm

חובב_ספרים כתב:יש להוסיף לכל רשימה ספרים שישנם באוצר אבל בכל זאת עדיף לחפש בקובץ מהברובוקס. לדוגמא שו"ת פרי תבואה הנמצא באוצר אבל בלי חיפוש, או דעת קדושים על הל' שחיטה שנסרק באוצר באופן גרועה ודומני גם חסר הרבה עמודים.
רעיון אולי יותר טוב הוא לקנות הדיסק קשיח של הברובוקס. זה לא יקר, משהו כמו מאה דוללאר, והשילוב בין הספרים של הברובוקס עם הספרים והחיפוש של אוצה"ח יכול להיות מצוין. השאלה היא אם זה אפשרי ופרקטי?


אתה צודק יש הרבה ספרים יותר קריאים בהיברו בוקס וגם יש כאלה שהOCR שלהם יותר מוצלח וכדי להכניס אותם לאוצר, אבל לקנות דיסק קשיח של היברו בוקס זה טוב אבל יש שם רק כ 40,000 ספרים לאומת האתר של היברו בוקס שיש בו מעל 50,000 ספרים.


חזור אל “לשכת הסופרים”



מי מחובר

משתמשים הגולשים בפורום זה: אין משתמשים רשומים ו־ 151 אורחים