משתמשת:אור שפירא/בלוג/002 הפרויקט

ההתפתחות האבולוציונית שלי בוויקיטקסט הולכת ככה:

  • בהתחלה הקלדתי הכול באופן ידני לגמרי, כולל ניקוד אותיות (במקרה שרציתי שיהיה)
  • לאחר מכן מצאתי דרך לקחת טקסט קיים (שמישהו אחר הקליד) ולהזין אותו לוויקיטקסט, כל דף בנפרד
  • לבסוף הבנתי שאני יכולה לכתוב קוד שיבצע מניפולציות על טקסט קיים ולגרום לו להיות בפורמט שבוט יכול להכניס אותו לוויקיטקסט. כך הכנסתי ספרים שלמים לוויקיטקסט

ואז הבנתי שאני רוצה יותר גדול. לפתח כלים שיעזרו לאחרים לתרום לויקיטקסט ויחסכו עבודה על דברים שמחשב צריך לעשות.

דברים נוספים שחשבתי לפתח:

  • לאחר מכן חשבתי לבנות משהו אחר שייקח את הטקסט מוויקיטקסט ויציג אותו בצורה יותר אסטיטית
  • או לפחות לבנות כלי להזנה אוטומטית של תבניות הניווט כי תבניות ניווט זה אחת הקללות האיומות של ויקיטקסט
  • כלי שאומרים לו על איזה ספר לעבוד והוא יכין באופן אוטומטי את תבניות הניווט שלו ואת הדפים הראשיים (למשל: מקבל כנתון את ספר בראשית אז הוא זה שיכין ויזין את תבניות הניווט ואת דפי הפרקים שלו, בהנחה שכל פסוק הוא דף נפרד)

אבל אחרי שהבנתי שזה לא חכם לעבוד לבד הגעתי למסקנה שאני רוצה לדבר עם אנשים ולשאול אותם איזה כלי יכול לעזור להם לתרום לוויקיטקסט או בעצם הקריאה בוויקיטקסט. כי לבנות כלי שאף אחד לא ישתמש בו זה לא יעיל.

אנשים יקרים, זוהי קריאה לקחת חלק באיפיון כלי שיעזור לכם בהתנדבות שלכם בויקיטקסט, כי מגיע לכם לעבוד על מה שמעניין אתכם ולא לבזבז את הזמן על דברים שמחשב יכול לעשות בעצמו.

הצעות, רעיונות, תובנות עריכה

  • יש שני מקורות עיקריים לטקסטים שאנחנו מייבאים מהם היום: פרוייקט בן-יהודה, ו-Sefaria. אני לא יודע מה לגבי פב"י, אבל ל-Sefaria יש ממש API, ולכאורה זו לא אמורה להיות בעיה ליצור בוט שפשוט מעתיק (בתוספת תבנית מתאימה) את כל הטקסטים שאנחנו רוצים משם (רק כאלו שחסרים. יהיה צורך ברשימה של כל האחרים, כדי לבדוק מה אנחנו יכולים לקחת משם). אם רוצים, יש תבנית {{אתר ספריה}}, שתקל על המעקב, בדומה לתבנית {{פרויקט בן-יהודה}}.
  • תוסף לתבניות ניווט זה דבר מעולה. אני   בעד.
  • כלי ה-OCR הנוכחי של ויקימדיה לא עובד טוב בשביל עברית. בפרט, יש בו הרבה תווים "מיותרים" (כמו RTL). קחי דף אקראי במפתח של ספר, שלא עבדו עליו עדיין, ותראי למה אני מתכוון. אני יודע שבאנגלית יש להם סקריפט שמקל על זה (ר' s:en:Wikisource:TemplateScript), ומאד יעזור אם יהיה גם לנו משהו כזה.
  • זהו בינתיים, אבל: א. טוב לשמוע ממך. ב. בהצלחה! נדב ס (שיחה) 16:22, 24 במאי 2017 (IDT)
תוספת:
  • תגי קטע הם מצרך חשוב, אבל לא תמיד טריוויאלי לביצוע, כי הם לפעמים משבשים את הטקסט (ראי, למשל, בהיסטוריית הגרסאות של הדף הזה, והתוצאה הסופית שלא נראית טוב בכלל). כדאי לחשוב אם יש דרך לעשות את זה בצורה טובה. נדב ס (שיחה) 16:34, 24 במאי 2017 (IDT)
  • משתמש:שילוני עושה עבודה חשוב בשילוב של ויקינתונים, ואני די בטוח שיהיו לו הצעות בנושא.
בקיצור, לא חסרה עבודה, ותמיד טוב שיש עוד ידיים, במיוחד כאלו שיודעות לעשות אוטומטיזציה לתהליכים (לאטמט אותם?). נדב ס (שיחה) 16:34, 24 במאי 2017 (IDT)
שלום. נדב- תודה שחשבת עליי. הצעות באיזה נושא? איטמוט? (;
בהקשר של ויקינתונים, יש הרבה מה לעשות. אשמח שמישהו יעזור. בעיקר נראה לי בענייני תבניות, ולקשר אותם לויקינתונים. אשמח לדבר על זה עם מי שירצה לעזור. שילוני (שיחה) 00:55, 26 במאי 2017 (IDT)


אני חושב שהמקום הנכון לדיון זה הוא במזנון ולא כאן. למה לפצל מקום התקשורת לשתיים?
בכל אופן, לגוף העניין, העתק אוטומטי מאתר ספאריה לכאן זה שוב לא דבר פשוט. יש אצלהם המון בעיות בטקסטים שלהם ובארגון שלו וגם הרבה פעמים חסרונות שלמים שאני עומד עליהם ומתקן תוך-כדי. פשוט אף אחד בויקיטקסט לא בהכרח רואה את זה כי אני מתקן את הטעויות תוך-כדי שאני מעבד את המידע אבל תאמינו לי שיש הרבה בעיות בתוכן והרבה תכתובת ביני ובין ספאריה במיילים שונים (מעל 100) על הבעיות השונות שאני מגלה תוך כדי שאני מעתיק את התוכן שלהם ידני.
בנוסף, אני משדרג את התוכן של סאפריה ע"י כך שאני מוסיף קישורים. אני מוצא את הקישורים האלו על ידי CNTRL-F וCNTRL-V או על ידי "חיפוש/והחלפה". זה הרבה יותר קל לעשות כאשר הטקסט נמצא בדף אחד מאשר מפוצל ל50 או 100 דפים שונים.
חס ושלום שלא תחשבי שאני בא להסתיר או לחסום אותך, אבל באתי להציג בפנייך עוד נקודות לשיקול שהם חשובות לדעתי לצורך המשך שיפור העריכה של הטקסטים. בברכה וחזק ואמץ.----Roxette5 (שיחה) 18:34, 24 במאי 2017 (IDT)

שלום לכולם ותודה על ההצעות,

הסיבה שהדיון הזה נמצא אצלי ולא במזנון זה כי אני מחפשת פרויקט עבורי ובסופו של דבר הפרויקט שייבחר יהיה משהו שמעניין אותי לעשות.

בעבר עסקתי יותר בייבוא של תכנים. הייבוא הוא חד פעמי, ברגע שנגמר הייבוא נגמר הפרויקט. כעת אני מחפשת ליצור כלי שיעזור לכם עם כל פרויקט שתקחו על עצמכם. משהו שמאוד יכול להקל לכם על החיים.

פירוט ההצעות עד לכאן עריכה

  1. נדב ס : ייבוא באמצעות api של ספאריה אור:לא מחפשת פרויקט ייבוא
  2. נדב ס:   בעד תוסף לתבניות ניווט
  3. נדב ס: כלי לניקוי זבל מייבוא OCR
  4. נדב ס: כלי לטיפול בתגי קטע - אור: מודה שאני פחות מכירה את העניין עם תגי קטע, אצטרך יותר הסבר.
  5. שילוני: ויקינתונים - אצטרך יותר הסבר.
    1. לכתוב פירוט העניין כאן? או במקום אחר? שילוני (שיחה) 18:01, 12 ביוני 2017 (IDT)
  6. Roxette5 : כלי חיפוש והחלפה על כמות גדולה של דפים (בבת אחת)

אשמח אם תוסיפו אנשים נוספים לדיון • אור שפיראשיחהתרומות • ד' בסיוון ה'תשע"ז • 09:47, 29 במאי 2017 (IDT)

לגבי תגי קטע: יש הסבר יחסית מפורט בויקיטקסט האנגלי (s:en:Help:Transclusion), אבל קיצורו הוא כזה:
טקסט מוקלד יכול לשמש בכמה הקשרים. נניח, אני יכול לרצות לראות פרק שלם בתנ"ך, או לראות אותו פסוק-פסוק (עם מפרשים, למשל). אפשרות אחרת: אני רוצה להראות ספר גם לצד PDF שלו (למשל: בדף הזה) וגם במרחב הראשי, כספר מעומד. הפתרון הוא transclusion.
הבעיה מתחילה כשרוצים לפרק טקסט מוקלד ליחידות קטנות. ההקשר שבו נתקלתי בזה הכי הרבה הוא בדפים של תרגומי המקרא, כאשר כל פסוק זקוק לסימון בנפרד, וזו יכולה להיות עבודה משמעותית. כרגע, אני משתמש בתבניות מוכנות מראש שצריכות רק חיפוש והחלפה פשוטים, אבל זה יכול להיות יותר מורכב, במיוחד אם הטקסט כבר מוקלד, או שאין דרך קלה לעשות חיפוש והחלפה.
תראי למשל את הדיון בדף השיחה שלי, כשהתחלתי להריץ את הבוט שלי. נדב ס (שיחה) 13:01, 29 במאי 2017 (IDT)

תראו על מה חשבתיאור שפיראשיחהתרומות • י"ב בסיוון ה'תשע"ז • 10:08, 6 ביוני 2017 (IDT)


לגבי כלי לניקוי הטקסט לאחר ייבוא OCR: בפרויקט ספר החוקים אנחנו עושים שימוש בכלי כזה. הסקריפט מנרמל טקסט עם תווי BIDI לטקסט רציף, מתקן טעויות נפוצות הנוצרות ע"י תוכנות ה-OCR, ועוד. הכלי כתוב ב-perl, אבל ניתן להמיר אותו ל-javascript. ‏– Fuzzy ‏– 15:36, 8 ביוני 2017 (IDT)