ויקיטקסט:מזנון/ארכיון דצמבר 2009

דף זה הוא ארכיון של הדיונים שהתקיימו במזנון. דיונים חדשים יש לקיים במזנון הנוכחי. אין לערוך דף זה.

הספרים החיצוניים

אשמח לקבל הפנייה מאיזה ספרים מותר להקליד לכאן את הטקסט בלי שזה יחשב הפרה של זכויות יוצרים (מוכנה להקליד) כמו"כ האם זה אותו עניין כשמקליטים אדם מקריא את הטקסט? --צחור 12:10, 2 באוגוסט 2009 (IDT)[תגובה]

שלום. במאמר זה באנגלית בהערות 20-21 יש הפניות לצילומים של תרגומים לעברית לספרים החיצוניים שנעשו במאה ה-19. הספרים האלו היו גם הבסיס למהדורה באתר "דעת", אלא ששם עשו גם שינויים (מה שמעניק להם זכויות יוצרים על אותם שינויים). ניתן בהחלט לקחת את הטקסטים באתר "דעת" כבסיס ראשוני, "להגיה" אותם לפי הספרים המקוריים שאין עליהם זכויות יוצרים, ואז להעלותם לאתר. בהצלחה, Dovi 18:51, 2 באוגוסט 2009 (IDT)[תגובה]

הי, יכול להיות שאתחיל בפרויקט הזה בקרוב, האם יש איזו התחלה של עבודה בתחום? לאיזה דף להעלות את הטקסט?--לאה צחור 11:59, 2 בדצמבר 2009 (IST)[תגובה]

אין הרבה, רק את קטגוריה:ספרים חיצוניים. -- אוֹרי 14:40, 2 בדצמבר 2009 (IST)[תגובה]

ויקיטקסט:הגהה על ידי קבצי DJVU

הגישה הזאת נמצאת בשימוש נרחב בויקיטקסט באנגלית ובגרמנית. אשמח לשמוע את דעתכם אם כדאי לדחוף את זה גם אצלינו. -- אוֹרי 10:35, 19 בנובמבר 2009 (IST)[תגובה]

שלום אורי. אני חושב שזה כדאי אם זה אפשרי. אינני חושב שצריך להשתמש בזה בכל מקום כמו באנגלית (שם זה כמעט סטנדרט בלעדי, וכל טקסט שלא משתמש בו הוא סוג ב'). אבל הוא יכול להיות מצויין להרבה טקסטים. במיוחד טקסטים של ספרות מודרנית כמו בפרויקט בן יהודה, אצלם נוכל להגיד גם את המהדורה המקורית בשבילוב מלא עם הטקסט הדיגיטלי.

אבל יש שני חסמים טכניים שצריך לפתור: ההגדלה וה-OCR. לגבי ה-OCR למדתי כאן שהפונקציה משתמשת בתוכנת OCR בקוד פתוח שנקרא tesseract. שם כתוב שהגירסה הבאה יכלול הרבה שפות זרות כגון סינית. השאלה אם יש שם עברית, או האם יש אנשים שרוצים ויכולים ליישם שם את העברית? לא מצאתי איך לבדוק איזה שפות כבר קיימות בתוכנה.

ואם לא, הדרך היחידה ליישם את ה-OCR זה לבקש מהפתח לבדוק אפשרות לקחת את זה מה-PDF שכבר קיים ל-40000 ספרים ב-hebrewbooks. אני אשאל אותו בעזר"ה בשבוע הקרוב. שבת שלום, Dovi 14:15, 20 בנובמבר 2009 (IST)[תגובה]

לדעתי כדאי שקודם תנדנד להם לגבי הבאג עם ההגדלה (הזזה ימינה-שמאלה) - זה צריך להיות משהו קל לפתור.

לגבי הOCR זה בטח לא כל כך פשוט. עברית מיוחדת בכך שהיא נכתבת מימין לשמאל, וכן בגלל השימוש בפונטים שונים כמו למשל כתב רש"י. הלוואי שtesseract יוסיפו תמיכה בעברית, אבל אני מעריך שהיא לא תכלל בגירסה 3 אלא אם כן מתכנת ישראלי יתערב.

ה-OCR אמנם מוטמע בתוך הPDF של hebrewbooks אבל לאחר המרה לDJVU הטקסט נעלם, כך שאם אנחנו רוצים לקחת את הטקסט צריך לעשות את זה לפני שממירים לPDF. אני מציע שתוותר להם בנושא זה, במיוחד לאור העובדה שבדיוק זה מה שעשיתי השבוע - כתבתי תוכנית שמוציאה את הטקסט מהPDF של hebrewbooks וטוענת אותו לתוך ויקיטקסט. התוצאה בינונית אך זה בגלל שזה הרמה של הOCR שעשו בhebrewbooks.

שבת שלום, -- אוֹרי 15:38, 20 בנובמבר 2009 (IST)[תגובה]

מעולה! לדעתי זה יהיה מאד מועיל לטעון את הטקסט לויקיטקסט, למרות שהאיכות שלו בינונית. אנשים יגיהו אותו במשך הזמן.

כשאני כותב מאמרים תורניים, אני מחפש מידע בגוגל, ובמקרים רבים אני מגיע לטקסט לא מוגה, ותוך כדי הקריאה אני מגיה אותו. יש לקוות שבמשך הזמן יהיו אנשים נוספים שינהגו כך, וכך איכות הטקסטים בויקיטקסט תלך ותשתפר. --אראל סגל • שיחה • ד' בכסלו ה'תש"ע 20:04, 21 בנובמבר 2009 (IST)[תגובה]

אני מהסס מאד לגבי התועלת שבהעלאת טקסט שאינו מוגה ושמכיל ביודעין שיבושי OCR לא-מוגהים. קרוב לוודאי שכל מי שמעלה טקסט כזה, כמו גם כל האחראים על אתר שבו נמצא טקסט כזה, עוברים באיסור של "אל תשכן באהליך עוולה", שאמרו חז"ל: זה המשהה בביתו ספר שאינו מוגה, ולדעתי קרוב לצאת שכרו בהפסדו. האפשרות היחידה היא להעלות טקסטים כאלו למרחב שם המשתמש הפרטי, ולקשר לשם מהמרחב הראשי תוך ציון העובדה שמדובר בטקסט גולמי ולא-מוגה. לדעתי מן הראוי היה לעשות כך גם בחלק מהטקסטים שכבר קיימים בוויקיטקסט (כמדומני אחדים מכתבי הרב קוק שהועלו לכאן עונים לקטגוריה הזו). -- נחום - שיחה 04:12, 22 בנובמבר 2009 (IST)[תגובה]

ברוך שכיוונתי לדעתך נחום גם לי נראה כך. תּוֹלְדֹת אָדָם • שיחה • ה' כסלו ה'תש"ע • 05:53 (22/12/2024)

חבר'ה, העיקרון שלכם כמובן נכון לגמרי. אבל הפונקציה כבר בנויה באופן שכבר נותן תשובה מלאה לבעיה האמיתית הזאת. אנשים בוויקיטקסט אנגלית וגרמנית לא פחות מחשיבים את הדיוק ואת האיכות, ולכן הם בנו את הפונקציה באופן שכל הטקסט הלא-מוגה נמצא מחוץ למרחב הטקסטים הראשי. כל ה"דפים" במרחב-השם "עמוד" לדוגמה נותנים רק קישור אדום עד שבאים ומגיהים את הטקסט, ויש גם הערה אוטומטית כדי לסמן האם הטקסט ב"עמוד" זה מוגה ועד כמה. רק אחרי בדיקות ואישורים באים ו"מכלילים" את הטקסט תחת כותרת במרחב-השם הראשי. אבל גם לאחר מכן (וזה אחד היתרונות הגדולים של הפונקציה) תמיד ניתן בקלות להשוות עוד פעם ועוד פעם לעמוד הבדפוס המקורי, ולתקן ולהגיה על פי השוואה זו.

כדאי שתסתכלו בשתי דוגמאות באנגלית, הראשונה לספר כמעט שלם (מפתח), והשני לספר שמעט שלא עשו בו שום הגהה בכלל (בשני יש רק מפתח ולא טקסט במרחב הראשי כי לא נעשה בו מספיק הגהה). Dovi 08:10, 22 בנובמבר 2009 (IST)[תגובה]

אם כך, דובי,דומני שאין בעייה. -- נחום - שיחה 03:39, 23 בנובמבר 2009 (IST)[תגובה]

עדכון: סוף סוף שאלתי כאן, כולם מוזמנים להתעדכן שם ולהשתתף בדיון. Dovi 16:18, 8 בדצמבר 2009 (IST)[תגובה]

לגבי החצים - הרעיון שלו היה טוב אבל הוא שכח מהכיתוב שמופיע כששמים את העכבר מעל המילה. שיניתי את הקוד שלו, כך שאני פשוט מחליף בין התמונות. נראה טוב?

לגבי ה-OCR זה היה די צפוי שהוא יתחמק. אתה הבנת איך להכניס שיכבה לקבצי DJVU עם הטקסט?

לגבי ה-ZOOM אני לא חושב שהוא התאמץ מספיק בשביל להבין מה הבעיה. אולי אם תציק לו עוד...

-- אוֹרי 23:16, 8 בדצמבר 2009 (IST)[תגובה]

הקלטות טעמי אמ"ת

היום בבוקר בשעה טובה ומוצלחת סוף-סוף הגיעה לידי קלטת ובה הקלטה של פרקים א'-ג' בתהילים עם טעמי מקרא (נראה לי בוכרי אבל אני לא בטוחה) אחרי מספר בירורים הבנתי שהאדם שהקליט את זה מוכן שמישהו יבוא אליו ויקליט אותו גם לדברים אחרים, הוא גר באלקנה. אם יש מישהו שמטורף לעניין כמוני וגר באיזור הזה אוכל אולי לקשר בינו לבין אותו אדם. עד אז אשמח אם מישהו שיש לו את האמצעים להעביר את ההקלטה מקלטת לפורמט ממחושב ייצור איתי קשר. או, אם לא תהיה ברירה אחרת, אולי אקנה את אותם אמצעים לצורך משימה --לאה צחור 10:09, 16 בדצמבר 2009 (IST)[תגובה]

ישנה תוכנה חינמית להקלטה מתוך טיפ ביצעתי פעולה זו . בעתיד הקרוב הוסיף קישור לתוכנה החינמית. יוסף ירושלמי 13:23, 29 בדצמבר 2009 (IST)[תגובה]

הקלטה של פרקי תהילים עם טעמים

היי

הגיעה לידי קלטת והצלחתי להמיר לקובץ OGG על-ידי חיבור טייפ למחשב. יצא קצת באיכות לא משהו אם יש מישהו שיודע מה ניתן לעשות כדי שיצא יותר טוב אני יכולה לשלוח לו זיפ של קבצי אודסיטי. לבנתיים ניתן לשמוע את הקובץ: http://commons.wikimedia.org/wiki/File:%D7%98%D7%A2%D7%9E%D7%99_%D7%90%D7%9E%D7%AA_%D7%A2%D7%99%D7%A8%D7%A7.ogg

אשמח אם מישהו יקשר מאחד הדפים לקובץ חשוב זה --לאה צחור 09:44, 29 בדצמבר 2009 (IST)[תגובה]

ללאה צחור שלום

מצאתי תוכנה חינמית טובה להקלטה מטיפ. כאמור אני אספק קישור. יוסף ירושלמי 13:26, 29 בדצמבר 2009 (IST)[תגובה]

לאה, שמתי קישור בדף קטגוריה:תהלים א אם כי אני לא יודע אם זה המקום הכי מתאים. בכל אופן, הקשבתי להקלטה - אמנם האיכות בינונית אבל עדיין מאוד יסודי ומקצועי וכדאי שיהיה על האתר. תודה לך על המאמצים, -- אוֹרי 23:08, 30 בדצמבר 2009 (IST)[תגובה]

כדאי להזהר במה שכותבים באינטרנט

מנהל בוויקיפדיה חוייב ב20,000 שקל על הוצאת לשון הרע.

מתוך הכתבה: טענתו כי התבלבל וחשב שהוצאת "שורות" והוצאת "גלורי ביכורים" חד הן - נדחתה, שכן הוא לא בדק את העניין לעומק ולא בחן את אמיתות המידע, אלא הסתמך על תלונות המשתמשים באתר ועל שמועות בלבד, ואף ציין כי הדברים נודעו לו "מניסיונו האישי". ינון פסקה כי "כעורך באתר היה עליו לאמת את המידע".

-- אוֹרי 10:44, 3 בדצמבר 2009 (IST)[תגובה]

כתב סת"ם

האם כדאי להוסיף את התנ"ך בכתב סת"ם בתמונות[1]? ELAD3

אני חושב שכן. ובתנאי שעל הצילומים של הספר תורה הספיציפי הזה אין זכויות יוצרים. -- אוֹרי 08:57, 8 בדצמבר 2009 (IST)[תגובה]

אין על זה זכויות יוצרם.--ELAD3 14:02, 8 בדצמבר 2009 (IST)[תגובה]

אם כך, בא תעשה ניסוי. תעלה תמונה אחת או שתיים וננסה להציג אותן במקביל לטקסט. -- אוֹרי 16:14, 8 בדצמבר 2009 (IST)[תגובה]

העלתי,ראה (קובץ:1.jpg) (קובץ:2.jpg)‏ --‏ELAD3 20:27, 8 בדצמבר 2009 (IST)[תגובה]

ראשית, שיניתי את השמות לקובץ:Genesis stam 1.jpg וקובץ:Genesis stam 2.jpg. שנית, כדאי להעלות את הקבצים בוויקישיתוף ולא בוויקיטקסט, כך שיהיה אפשר להשתמש בהם גם במיזמים אחרים. ולגבי שילוב עם טקסט - אני מתלבט מה כדאי. למישהו יש רעיון? -- אוֹרי 21:11, 8 בדצמבר 2009 (IST)[תגובה]