עמוד 1 מתוך 1

OCR שבפידיאף - הטובה היא אם רעה

פורסם: ו' ינואר 18, 2013 9:26 am
על ידי צמא לדעת
כידוע יש ספרים שהפענוח בהם משובש למאוד, ויצא שכרן בהפסדן, ומשו"ה אין בהם אפשרות חיפוש באוצר. לקראת עדכון 11, אשר גולת הכותרת בה (לדידי) אפשרות הוספת קבצי פידיאף פרטיים, כתבו כן במדריך למשתמש, שיש לבדוק מקודם אם הפענוח משובש מדי, ואז להוסיפו בלי אפשרות חיפוש.

ובכן, האם אין דרך קצרה/קלה/מדויקת/אוטומטית יותר לבדוק את זה מאשר לעבור על כל (אלפי) הקבצים אחד אחד, להעתיק ולהדבק ולקרות? האם באמת כך עושים את זה באוצר? אודה לכל מי שיחכימני.

ובהזדמנות זו אזכיר עוה"פ מה שכבר ביקשו, לתת אפשרות לחפש גם באותן ספרים שאינם בחיפוש הכללי, כאשר המשתמש בוחר אותן ספרים מסויימים.

Re: OCR שבפידיאף - הטובה היא אם רעה

פורסם: ו' ינואר 18, 2013 9:39 am
על ידי רחמים
תכניס את כל הקבצים עם אפשרות חיפוש, ואם אין טקסט בקבצים מסויימים או שהוא לא קריא הרי שאף אם תחפש בו ע''י האוצר לא תמצא כלום בכל מקרה, ולא הפסדת כלום בזה רק אולי שאם יש טקסט לא קריא והוא יכנס לחיפוש זה יקח מעט זיכרון, אבל אם זה שיקול של לעבור על כל הספרים שווה להקריב קצת זכרון בשביל זה.
למי שרוצה לדעת אם תרצו להכניס לתוך האוצר את כל ההיברו בוקס שזה כמו 350 גיגה ספרים צריך לזה בין 30 ל 40 גיגה של אינדקס כדי לעשות חיפוש באוצר וזה לוקח משהו כמו 24 שעות כדי לבנות כזה אינדקס חוץ מהזמן שיקח לתוכנה להפוך כל קובץ PDF לקובץ של ספרי האוצר.

Re: OCR שבפידיאף - הטובה היא אם רעה

פורסם: ו' ינואר 18, 2013 9:58 am
על ידי צמא לדעת
השאלה היא אם זה יאיט את החיפוש יותר מדי, או שיתקבלו false-positives (תוצאות שאין בהם מה שחיפשתי, כמו שיש בה"ב למכביר... דוגמא מצחיקה)

רחמים כתב:למי שרוצה לדעת אם תרצו להכניס לתוך האוצר את כל ההיברו בוקס שזה כמו 350 גיגה ספרים צריך לזה בין 30 ל 40 גיגה של אינדקס כדי לעשות חיפוש באוצר וזה לוקח משהו כמו 24 שעות כדי לבנות כזה אינדקס חוץ מהזמן שיקח לתוכנה להפוך כל קובץ PDF לקובץ של ספרי האוצר.


מעניין.
אך אם תנכה מזה כל הספרים שישנם כבר באוצר, וכל הכפיליות, וכל מה שאין בו טעם ותועלת, זה יעלה (להערכתי) לכל היותר 25 - 50 גיגה ספרים.

Re: OCR שבפידיאף - הטובה היא אם רעה

פורסם: ו' ינואר 18, 2013 11:53 am
על ידי רחמים
אז אולי אחר שתברור את כל ההירו בוקס תוציא רשימה של כל הספרים שכדאי להכניס לאוצר ותפרסם רשימה זו כאן, ואולי יהיה אפשר לכתוב גם איזה תוכנה שתעבור על הרשימה ותכניס קובץ קובץ לתוך האוצר וכך גם מי שלא ברר את ההיברו בוקס התוכנה תעבור על כל קבצי הPDF ותכניס לאוצר רק מתוך הרשימה, ונמצאנו מזכים את הרבים!

או אחר שכל הספרים שכדאי להוסיף יהיו אצלך במקום אחד אפשר לסרוק את אותה תקיה ולשלוף את כל שמות קבצי הPDF ולבנות כך את הרשימה הנ''ל של הספרים שכדאי להכניס לאוצר.

Re: OCR שבפידיאף - הטובה היא אם רעה

פורסם: ו' ינואר 18, 2013 12:40 pm
על ידי צמא לדעת
זהו בערך מה שרציתי לעשות באשכול זה (מעט מעט), אך כנראה רבו עלי חבירי.
קשה לכתוב רשימה כזו בצורה החלטית, כיון שכל אחד והטעם שלו, ומ"מ יש דברים טובים לרוב בנ"א ויש דברים שאינם שוים כלום מלבד ל'משוגעים לדבר'. גם יש לציין שא"א להוריד מאתר ה"ב יותר מ41 ספרים תוך 24 שעות.
עברתי מזמן על רוב הספרים שבה"ב (מלבד הספרים המתחילים באותיות ה' מ' א' ורוב אות ב'), ורשמתי הנראה לי, מסתמא יש טעותים לשני הצדדים (ספרים טובים גם לטעמי שהושמטו ולהיפך), אך רובו ככולו משקף טעמי (כ1450 ספרים). אם וכאשר אשלים הרשימה אין לי בעיה להעלותה כאן בל"נ.

Re: OCR שבפידיאף - הטובה היא אם רעה

פורסם: ש' ינואר 19, 2013 9:57 pm
על ידי רחמים
אני חושב שצריכה להיות רשימה בסיסית של כל הספרים שקיימים בהיבור בוקס ולא נמצאים באוצר,
וכל אחד יקח את הרשימה הבסיסית וימחוק משם מה שלא מתאים לו ומה שנשאר תהיה תוכנה שתכניס את קבצים הPDF לתוך האוצר. אם הקבצים כבר קיימים אצלו בדיסק קשיח אז פשוט למצוא אותם ולהעתיק לתקיה אחת מסודרת ואם אין לו את הקבצים אז להוריד אותם מהאתר של היברו בוקס לתקיה מסודרת.

Re: OCR שבפידיאף - הטובה היא אם רעה

פורסם: א' ינואר 20, 2013 1:45 am
על ידי אוהב אוצר
רחמים כתב:תכניס את כל הקבצים עם אפשרות חיפוש, ואם אין טקסט בקבצים מסויימים או שהוא לא קריא הרי שאף אם תחפש בו ע''י האוצר לא תמצא כלום בכל מקרה, ולא הפסדת כלום בזה רק אולי שאם יש טקסט לא קריא והוא יכנס לחיפוש זה יקח מעט זיכרון, אבל אם זה שיקול של לעבור על כל הספרים שווה להקריב קצת זכרון בשביל זה.
למי שרוצה לדעת אם תרצו להכניס לתוך האוצר את כל ההיברו בוקס שזה כמו 350 גיגה ספרים צריך לזה בין 30 ל 40 גיגה של אינדקס כדי לעשות חיפוש באוצר וזה לוקח משהו כמו 24 שעות כדי לבנות כזה אינדקס חוץ מהזמן שיקח לתוכנה להפוך כל קובץ PDF לקובץ של ספרי האוצר.


תוכל להסביר יותר? לא הבנתי מה עושים ומה תהיה התוצאה, אבל לפי ההסבר זה נשמע מועיל ולכן אם תוכל ל'פשט' יותר.

Re: OCR שבפידיאף - הטובה היא אם רעה

פורסם: א' ינואר 20, 2013 8:43 am
על ידי חובב_ספרים
יש להוסיף לכל רשימה ספרים שישנם באוצר אבל בכל זאת עדיף לחפש בקובץ מהברובוקס. לדוגמא שו"ת פרי תבואה הנמצא באוצר אבל בלי חיפוש, או דעת קדושים על הל' שחיטה שנסרק באוצר באופן גרועה ודומני גם חסר הרבה עמודים.
רעיון אולי יותר טוב הוא לקנות הדיסק קשיח של הברובוקס. זה לא יקר, משהו כמו מאה דוללאר, והשילוב בין הספרים של הברובוקס עם הספרים והחיפוש של אוצה"ח יכול להיות מצוין. השאלה היא אם זה אפשרי ופרקטי?

Re: OCR שבפידיאף - הטובה היא אם רעה

פורסם: א' ינואר 20, 2013 4:58 pm
על ידי רחמים
חובב_ספרים כתב:יש להוסיף לכל רשימה ספרים שישנם באוצר אבל בכל זאת עדיף לחפש בקובץ מהברובוקס. לדוגמא שו"ת פרי תבואה הנמצא באוצר אבל בלי חיפוש, או דעת קדושים על הל' שחיטה שנסרק באוצר באופן גרועה ודומני גם חסר הרבה עמודים.
רעיון אולי יותר טוב הוא לקנות הדיסק קשיח של הברובוקס. זה לא יקר, משהו כמו מאה דוללאר, והשילוב בין הספרים של הברובוקס עם הספרים והחיפוש של אוצה"ח יכול להיות מצוין. השאלה היא אם זה אפשרי ופרקטי?


אתה צודק יש הרבה ספרים יותר קריאים בהיברו בוקס וגם יש כאלה שהOCR שלהם יותר מוצלח וכדי להכניס אותם לאוצר, אבל לקנות דיסק קשיח של היברו בוקס זה טוב אבל יש שם רק כ 40,000 ספרים לאומת האתר של היברו בוקס שיש בו מעל 50,000 ספרים.