דילוג לתוכן
0
  • דף הבית
  • חוקי הפורום
  • פוסטים אחרונים
  • לא נפתר
  • פופולרי
  • משתמשים
  • חיפוש גוגל בפורום
  • צור קשר
  • דף הבית
  • חוקי הפורום
  • פוסטים אחרונים
  • לא נפתר
  • פופולרי
  • משתמשים
  • חיפוש גוגל בפורום
  • צור קשר
עיצובים
  • Light
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • Dark
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • ברירת מחדל (ללא עיצוב (ברירת מחדל))
  • ללא עיצוב (ברירת מחדל)
כיווץ
לוגו אתר

פורום אוצריא

הסבר על האימות הטלפוני
אוצריא - דף הבית
|
קח שותפות בהוספת ספרים
|
תרום לאוצריא
  1. דף הבית
  2. אתר 'ספריית אוצריא'
  3. הצעת ייעול | הגהה של ספרים באתר

הצעת ייעול | הגהה של ספרים באתר

מתוזמן נעוץ נעול הועבר אתר 'ספריית אוצריא'
21 פוסטים 9 כותבים 173 צפיות 8 עוקבים
  • מהישן לחדש
  • מהחדש לישן
  • הכי הרבה הצבעות
תגובה
  • תגובה כנושא
התחברו כדי לפרסם תגובה
נושא זה נמחק. רק משתמשים עם הרשאות מתאימות יוכלו לצפות בו.
  • 1 11

    שוחחתי הבוקר בארוכה עם המומחה שלי לענייני סטטיסטיקה ותוכן.
    מה שיצא לנו זה זה רעיון בערך כזה (מקווה לנסות ליישם בקרוב):

    1. לקחת מאגר ספרים גדול מאוד של סריקות, כמו לדוגמה היברובוקס, ולהריץ מודל ocr, אבל להכניס ממנו רק את התוצאות שמוגדרות בסריקה כרמת וודאות של 95 אחוז ומעלה (רוב כלי הOCR גם כותבים רמת וודאות).
    2. המילים הנ"ל נכנסות למאגר מילוני, וכעת התוכנה מחפשת מילים שאינן במילון שיכולות להכנס בעזרת החלפת אות אחת (אולי עדיף בשלב ראשון רק החלפת אותיות דומות בעברית, כמו ה' וח' או ב' וכ').
    3. המילון מחליף את התמונה, ובו זמנית מזהה שמהיום תמונה של בראשיח היא בעצם בראשית, וזה נכנס לרמת וודאות גבוהה ונוסף למילון כבראשית.
    4. בכל הרצה נוספים מילים נוספות למילון, בשעה שמילה שאינה קיימת בעברית/לשה"ק לא תוכל להכנס אלא אם היא ברמת וודאות של 100 אחוז.
    5. הרצה נוספת שצריך לשקול באיזה שלב, לקחת קורפוס כזה או אחר (יש כמה חינמיים), ולהוסיף למילון לאחר שמיצינו את הבעיות. (בו זמנית כל קורפוס מכיל סטטיסטיקות של סבירות תדירות אותיות, צריך לשקול שימוש בזה).
    6. הרצה נוספת שצריך לשקול באיזה שלב, חיפוש רצף מילים, נניח 10 מילים זהות שנמצאות במקום אחר בשינוי אות אחת, שיבנה לפי סטטיסטיקות. אחר כך יורד ל9 וכן הלאה.

    כל זה נשמע מסובך מאוד, כי זה מסובך מאוד, אבל כבר אמר הגר"א שהעקשן יצליח, ואני מתכוון בעז"ה להתעקש.
    הבעיה הגדולה כאן היא שכל טעות בתכנון עלולה לעלות ביוקר רב. ולכן אשמח לכל משוב ותוספת רעיונות וכו'.

    ד מנותק
    ד מנותק
    דאנציג
    כתב נערך לאחרונה על ידי
    #21

    @11

    בתוכנה של יעקובוב: 1. הוא בנה מאגר בסיסי שמגיע עם התוכנה. 2. ו-3. מיושמים הלכה למעשה, כאשר 4. הוא על ידי המשתמש עצמו, ויכול לבחור פר ספר איזה מילון מילים, ולהוסיף זיהוי וודאי לאותיות ספציפיות הקיימות בספר זה בלבד - ליצור לכל ספר בפני עצמו מאגר מילים נפוצות, ומאגר OCR ייחודי, ולכן כל זמן שזה מודפס - תמונת מילים שחוזרת על עצמה באופן קבוע, רמת הדיוק של התוכנה שלו גבוהה.
    הבעיה מתחילה כאשר יש לך אותיות שבורות חצויות וכדומה, שאז צריך לאמן את התוכנה מחדש על עשרות ווריאציות חדשות שלא קיימות בשום מאגר בעולם.
    ולא, לא באתי לפרסם את התוכנה שלו, אלא מהתנסות איתה [שילמתי עליה טבין ותקילין, והגעתי למצב שבכתב רש"י ברור וחד, היו טעויות רק במילים חדשות].

    תגובה 1 תגובה אחרונה
    0

    • התחברות

    • אין לך חשבון עדיין? הרשמה

    • התחברו או הירשמו כדי לחפש.
    • פוסט ראשון
      פוסט אחרון