דילוג לתוכן
0
  • דף הבית
  • חוקי הפורום
  • פוסטים אחרונים
  • לא נפתר
  • פופולרי
  • משתמשים
  • חיפוש גוגל בפורום
  • צור קשר
  • דף הבית
  • חוקי הפורום
  • פוסטים אחרונים
  • לא נפתר
  • פופולרי
  • משתמשים
  • חיפוש גוגל בפורום
  • צור קשר
עיצובים
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • ברירת מחדל (ללא עיצוב (ברירת מחדל))
  • ללא עיצוב (ברירת מחדל)
כיווץ
לוגו אתר

פורום אוצריא

הסבר על האימות הטלפוני
אוצריא - דף הבית
|
קח שותפות בהוספת ספרים
|
תרום לאוצריא
  1. דף הבית
  2. אתר 'ספריית אוצריא'
  3. הצעת ייעול | הגהה של ספרים באתר

הצעת ייעול | הגהה של ספרים באתר

מתוזמן נעוץ נעול הועבר אתר 'ספריית אוצריא'
20 פוסטים 8 כותבים 157 צפיות 7 עוקבים
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
תגובה
  • תגובה כנושא
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • מ מחובר
    מ מחובר
    מעמע
    כתב נערך לאחרונה על ידי
    #1

    יצא לי לבחור עמודים ולגלות שכבר עשו להם המרה OCR אבל לא עשו הגהה להמרה ולכן יש טעויות מפאת חוסר דיוק של הOCR.
    האם אפשר להוסיף שיהיה דרך לדעת מה כבר עבר המרה לטקסט ואז נשאר רק לערוך אותו.
    יש כאלה שיותר קל להם לעשות עריכה לטקסט המוקלד מאשר להמיר אותו.

    איש גמזוא תגובה 1 תגובה אחרונה
    0
    • נתנאל_26נ מחובר
      נתנאל_26נ מחובר
      נתנאל_26
      כתב נערך לאחרונה על ידי
      #2

      לא יודע אם יש אפשרות לעשות את זה אבל סתם מניסיון אישי לעשות הגהה דרך האתר זה לא הדבר הכי נוח בגלל שאתה צריך לראות איפה אתה בדיוק בספר כדי לראות איך זה כתוב שם וזה לוקח זמן לתפוס בספר לכן אני כל עובד עליו רק ב ABBYY ואז אני רואה כל אות איפה זה בדיוק השאלה אם יש אפשרות לעשות את באתר או שהאתר יודע רק לשלוח ל OCR חיצוני?

      תגובה 1 תגובה אחרונה
      0
      • יום חדש מתחילי מנותק
        יום חדש מתחילי מנותק
        יום חדש מתחיל
        מנהל ספריית אוצריא
        כתב נערך לאחרונה על ידי
        #3

        @ע-ה-דכו-ע

        תגובה 1 תגובה אחרונה
        0
        • י. פל.י מנותק
          י. פל.י מנותק
          י. פל.
          כתב נערך לאחרונה על ידי
          #4

          אני לא חושב שיש מה לעשות.
          נין אולי לסמן מבחוץ, אך זה פתרון זמני: בקרוב בע"ה כל הספרים שיעלו, יבוצע עליהם OCR בעזרת ג'מיני 3 PRO- בעת ההעלאה.

          איש גמזוא תגובה 1 תגובה אחרונה
          4
          • מ מעמע

            יצא לי לבחור עמודים ולגלות שכבר עשו להם המרה OCR אבל לא עשו הגהה להמרה ולכן יש טעויות מפאת חוסר דיוק של הOCR.
            האם אפשר להוסיף שיהיה דרך לדעת מה כבר עבר המרה לטקסט ואז נשאר רק לערוך אותו.
            יש כאלה שיותר קל להם לעשות עריכה לטקסט המוקלד מאשר להמיר אותו.

            איש גמזוא מחובר
            איש גמזוא מחובר
            איש גמזו
            כתב נערך לאחרונה על ידי
            #5

            @מעמע אם אתה מדבר על עמודים מהספר מרדכי על ב״מ, אז זה ככה בכל הספר, לא זכור לי מקרים שעשו זיהוי תווים לעמודים מסוימים.
            כך שאין טעם להוסיף עוד מידע על העמוד שסתם יכביד בעין, הכל כבר כתוב באודות הספר.

            מה שכן, הייתי ממליץ לעשות את כללי העריכה של הספר יותר צועקים לעין, אולי כפופאפ שעולה (עם אפשרות סימון ״אל תציג יותר״ בספר הנוכחי.)

            תגובה 1 תגובה אחרונה
            3
            • י. פל.י י. פל.

              אני לא חושב שיש מה לעשות.
              נין אולי לסמן מבחוץ, אך זה פתרון זמני: בקרוב בע"ה כל הספרים שיעלו, יבוצע עליהם OCR בעזרת ג'מיני 3 PRO- בעת ההעלאה.

              איש גמזוא מחובר
              איש גמזוא מחובר
              איש גמזו
              כתב נערך לאחרונה על ידי איש גמזו
              #6

              @י.-פל. נפלא!
              אם כי זה לא תמיד יעיל, כי הבינה בניגוד לתוכנות יבשות כמו abbyy, לא עקבית, ולא מספיק להעלות אליו עמוד שלם ולקוות שיצא בסדר.
              צריך דבר ראשון לצעוק עליו קצת בהנחיה, חוץ מזה יותר יעיל להעלות קטעים קצרים, אחרת הוא עלול להתעצל ולנחש לבד את התוכן.

              תגובה 1 תגובה אחרונה
              0
              • דוד משה 1ד מנותק
                דוד משה 1ד מנותק
                דוד משה 1
                מפתח
                כתב נערך לאחרונה על ידי
                #7

                אני אם הייתי מעלה לבינה זה אחרי OCR כלומר לעשות OCR ולהעלות לו תמונה ואת התוצאה

                1 תגובה 1 תגובה אחרונה
                0
                • דוד משה 1ד דוד משה 1

                  אני אם הייתי מעלה לבינה זה אחרי OCR כלומר לעשות OCR ולהעלות לו תמונה ואת התוצאה

                  1 מנותק
                  1 מנותק
                  11
                  כתב נערך לאחרונה על ידי
                  #8

                  @דוד-משה-1 כתב בהצעת ייעול | הגהה של ספרים באתר:

                  אני אם הייתי מעלה לבינה זה אחרי OCR כלומר לעשות OCR ולהעלות לו תמונה ואת התוצאה

                  הידע של ג'מיני לבצע OCR הוא עצום ביחס לתוכנות הישנות. כי הוא מזהה לכלולכים בדף וצורת הדף ולא רק מבנה אותיות.
                  אחר כך הוא מזהה מבנה של אותיות.
                  ורק בשלב השלישי הוא מתקן לפי דעתו הקלושה. אם תגדיר שהוא יעבוד לפי הסדר הזה בדיוק, תקבל תוצאות מקסימליות (ל-2026. בעוד שנה יהיה כבר יותר טוב)

                  דוד משה 1ד תגובה 1 תגובה אחרונה
                  1
                  • 1 11

                    @דוד-משה-1 כתב בהצעת ייעול | הגהה של ספרים באתר:

                    אני אם הייתי מעלה לבינה זה אחרי OCR כלומר לעשות OCR ולהעלות לו תמונה ואת התוצאה

                    הידע של ג'מיני לבצע OCR הוא עצום ביחס לתוכנות הישנות. כי הוא מזהה לכלולכים בדף וצורת הדף ולא רק מבנה אותיות.
                    אחר כך הוא מזהה מבנה של אותיות.
                    ורק בשלב השלישי הוא מתקן לפי דעתו הקלושה. אם תגדיר שהוא יעבוד לפי הסדר הזה בדיוק, תקבל תוצאות מקסימליות (ל-2026. בעוד שנה יהיה כבר יותר טוב)

                    דוד משה 1ד מנותק
                    דוד משה 1ד מנותק
                    דוד משה 1
                    מפתח
                    כתב נערך לאחרונה על ידי
                    #9

                    @11 כתב בהצעת ייעול | הגהה של ספרים באתר:

                    הידע של ג'מיני לבצע OCR הוא עצום ביחס לתוכנות הישנות. כי הוא מזהה לכלולכים בדף וצורת הדף ולא רק מבנה אותיות.
                    אחר כך הוא מזהה מבנה של אותיות.

                    הוא לא מבצע OCR הוא מנסה לקרוא את הטקסט בדיוק כמוך רק הוא קצת פחות מנוסה ממך בספרים בארמית מה שאני ממליץ זה לעשות לו עבודה קלה ולתת לו הוראות שיתקן איפה שצריך תיקון לדעתי זה אמור לחסוך בטוקנים והרבה מאוד בצורך בתיקונים

                    תגובה 1 תגובה אחרונה
                    0
                    • י. פל.י מנותק
                      י. פל.י מנותק
                      י. פל.
                      כתב נערך לאחרונה על ידי
                      #10

                      זה הולך להיות מהפכה לגמרי... @ע-ה-דכו-ע מצא API של גוגל לזיהוי הטקסט בדף, לפי ציר XY, והתכנון הוא לשלב: זיהוי לפי ציר, ואז ביצוע OCR עם פרומפט מורכב, כולל דוגמאות, ולדעתי הקלושה, סיכוי של זיהוי 99%+ בכתב נורמלי, ולפחות 90% בכתב בעייתי (אם הAPI יצליח בו... זו שאלה טובה).

                      איש גמזוא תגובה 1 תגובה אחרונה
                      2
                      • י. פל.י י. פל.

                        זה הולך להיות מהפכה לגמרי... @ע-ה-דכו-ע מצא API של גוגל לזיהוי הטקסט בדף, לפי ציר XY, והתכנון הוא לשלב: זיהוי לפי ציר, ואז ביצוע OCR עם פרומפט מורכב, כולל דוגמאות, ולדעתי הקלושה, סיכוי של זיהוי 99%+ בכתב נורמלי, ולפחות 90% בכתב בעייתי (אם הAPI יצליח בו... זו שאלה טובה).

                        איש גמזוא מחובר
                        איש גמזוא מחובר
                        איש גמזו
                        כתב נערך לאחרונה על ידי
                        #11

                        @י.-פל. גם בכתב רבנו שלמה יצחקי?

                        תגובה 1 תגובה אחרונה
                        0
                        • י. פל.י מנותק
                          י. פל.י מנותק
                          י. פל.
                          כתב נערך לאחרונה על ידי
                          #12

                          נראה כשיהיה מוכן. השערות הן השערות - כלום לא מעבר.

                          איש גמזוא תגובה 1 תגובה אחרונה
                          0
                          • י. פל.י י. פל.

                            נראה כשיהיה מוכן. השערות הן השערות - כלום לא מעבר.

                            איש גמזוא מחובר
                            איש גמזוא מחובר
                            איש גמזו
                            כתב נערך לאחרונה על ידי
                            #13

                            @י.-פל. מה הכוונה ציר XY? שורה?

                            תגובה 1 תגובה אחרונה
                            0
                            • י. פל.י מנותק
                              י. פל.י מנותק
                              י. פל.
                              כתב נערך לאחרונה על ידי
                              #14

                              GPT:
                              בקיצור:
                              ציר X-Y כאן מתייחס למיקום של הטקסט בדף לפי קואורדינטות —
                              X מציין מיקום אופקי, Y מיקום אנכי.
                              כך אפשר לדעת איפה כל מילה נמצאת בדף, ולא רק מה כתוב, ולשלב זאת עם OCR לזיהוי מדויק יותר.

                              יאיר דניאלי תגובה 1 תגובה אחרונה
                              0
                              • 1 מנותק
                                1 מנותק
                                11
                                כתב נערך לאחרונה על ידי
                                #15

                                יש בזה הבדל מאוד מהותי אם אתה מעוניין בPDF עם תוצאה או שאתה מעוניין בטקסט. כי אם אתה מעוניין בחיפוש סטייל אוצר החכמה שתמצא בתוך הPDF אפשר במקביל להריץ כמה וכמה סריקות OCR, מכמה ספריות קיימות שעושות את זה בצורות שונות זו מזו.
                                ואמנם PDF בנוי לשכת טקסט אחת, אבל אפשר במקביל להריץ חיפוש תמיד בקובץ טקסט שיזהה את המיקום (בניתי מעין כלי כזה בעבר כך שאני יודע שזה אפשרי, וחבל על דאבדין). יש כמה ספריות חינמיות של OCR, ולענ"ד אין צורך בכלל להשתמש מעבר לזה, כי פענוח מקביל של 3-4 ספריות, יתן תוצאות ברמה מאוד גבוהה.
                                מצד שני, אם רוצים לייצר טקסט מבלי לצפות בדף החיפוש, אין ברירה אלא לבחור טקסט אחד, ואז נתקלים במחסום.

                                תגובה 1 תגובה אחרונה
                                1
                                • י. פל.י י. פל.

                                  GPT:
                                  בקיצור:
                                  ציר X-Y כאן מתייחס למיקום של הטקסט בדף לפי קואורדינטות —
                                  X מציין מיקום אופקי, Y מיקום אנכי.
                                  כך אפשר לדעת איפה כל מילה נמצאת בדף, ולא רק מה כתוב, ולשלב זאת עם OCR לזיהוי מדויק יותר.

                                  יאיר דניאלי מנותק
                                  יאיר דניאלי מנותק
                                  יאיר דניאל
                                  כתב נערך לאחרונה על ידי יאיר דניאל
                                  #16

                                  @י.-פל. כתב בהצעת ייעול | הגהה של ספרים באתר:

                                  GPT:
                                  בקיצור:
                                  ציר X-Y כאן מתייחס למיקום של הטקסט בדף לפי קואורדינטות —
                                  X מציין מיקום אופקי, Y מיקום אנכי.
                                  כך אפשר לדעת איפה כל מילה נמצאת בדף, ולא רק מה כתוב, ולשלב זאת עם OCR לזיהוי מדויק יותר.

                                  זה מזכיר לי איזה נושא במתמחים שמישהו שם עבד על תוכנה שעשה OCR גם מכתבי יד של אנשים, האם זה קשור?

                                  י. פל.י תגובה 1 תגובה אחרונה
                                  0
                                  • יאיר דניאלי יאיר דניאל

                                    @י.-פל. כתב בהצעת ייעול | הגהה של ספרים באתר:

                                    GPT:
                                    בקיצור:
                                    ציר X-Y כאן מתייחס למיקום של הטקסט בדף לפי קואורדינטות —
                                    X מציין מיקום אופקי, Y מיקום אנכי.
                                    כך אפשר לדעת איפה כל מילה נמצאת בדף, ולא רק מה כתוב, ולשלב זאת עם OCR לזיהוי מדויק יותר.

                                    זה מזכיר לי איזה נושא במתמחים שמישהו שם עבד על תוכנה שעשה OCR גם מכתבי יד של אנשים, האם זה קשור?

                                    י. פל.י מנותק
                                    י. פל.י מנותק
                                    י. פל.
                                    כתב נערך לאחרונה על ידי י. פל.
                                    #17

                                    @יאיר-דניאל
                                    לא קשור בכלל.

                                    יאיר דניאלי תגובה 1 תגובה אחרונה
                                    0
                                    • י. פל.י י. פל.

                                      @יאיר-דניאל
                                      לא קשור בכלל.

                                      יאיר דניאלי מנותק
                                      יאיר דניאלי מנותק
                                      יאיר דניאל
                                      כתב נערך לאחרונה על ידי
                                      #18
                                      פוסט זה נמחק!
                                      תגובה 1 תגובה אחרונה
                                      0
                                      • י. פל.י מנותק
                                        י. פל.י מנותק
                                        י. פל.
                                        כתב נערך לאחרונה על ידי
                                        #19

                                        עניתי, ובא נפסיק את ההסטה של הנושא.

                                        תגובה 1 תגובה אחרונה
                                        0
                                        • 1 מנותק
                                          1 מנותק
                                          11
                                          כתב נערך לאחרונה על ידי
                                          #20

                                          שוחחתי הבוקר בארוכה עם המומחה שלי לענייני סטטיסטיקה ותוכן.
                                          מה שיצא לנו זה זה רעיון בערך כזה (מקווה לנסות ליישם בקרוב):

                                          1. לקחת מאגר ספרים גדול מאוד של סריקות, כמו לדוגמה היברובוקס, ולהריץ מודל ocr, אבל להכניס ממנו רק את התוצאות שמוגדרות בסריקה כרמת וודאות של 95 אחוז ומעלה (רוב כלי הOCR גם כותבים רמת וודאות).
                                          2. המילים הנ"ל נכנסות למאגר מילוני, וכעת התוכנה מחפשת מילים שאינן במילון שיכולות להכנס בעזרת החלפת אות אחת (אולי עדיף בשלב ראשון רק החלפת אותיות דומות בעברית, כמו ה' וח' או ב' וכ').
                                          3. המילון מחליף את התמונה, ובו זמנית מזהה שמהיום תמונה של בראשיח היא בעצם בראשית, וזה נכנס לרמת וודאות גבוהה ונוסף למילון כבראשית.
                                          4. בכל הרצה נוספים מילים נוספות למילון, בשעה שמילה שאינה קיימת בעברית/לשה"ק לא תוכל להכנס אלא אם היא ברמת וודאות של 100 אחוז.
                                          5. הרצה נוספת שצריך לשקול באיזה שלב, לקחת קורפוס כזה או אחר (יש כמה חינמיים), ולהוסיף למילון לאחר שמיצינו את הבעיות. (בו זמנית כל קורפוס מכיל סטטיסטיקות של סבירות תדירות אותיות, צריך לשקול שימוש בזה).
                                          6. הרצה נוספת שצריך לשקול באיזה שלב, חיפוש רצף מילים, נניח 10 מילים זהות שנמצאות במקום אחר בשינוי אות אחת, שיבנה לפי סטטיסטיקות. אחר כך יורד ל9 וכן הלאה.

                                          כל זה נשמע מסובך מאוד, כי זה מסובך מאוד, אבל כבר אמר הגר"א שהעקשן יצליח, ואני מתכוון בעז"ה להתעקש.
                                          הבעיה הגדולה כאן היא שכל טעות בתכנון עלולה לעלות ביוקר רב. ולכן אשמח לכל משוב ותוספת רעיונות וכו'.

                                          תגובה 1 תגובה אחרונה
                                          5

                                          • התחברות

                                          • אין לך חשבון עדיין? הרשמה

                                          • התחברו או הירשמו כדי לחפש.
                                          • פוסט ראשון
                                            פוסט אחרון