עבור לתוכן

פינת הידעת ? | הכל אודות תקלות בזכרונות RAM

Featured Replies

פורסם

אחרי שלא מצאתי שום הסבר בעברית ברשת, לפניכם הסבר ממצה על תקלות בזכרונות. תהנו :xyxthumbs:

מהו זיכרון ?

מחשבים משתמשים בזיכרון על מנת לאחסן את הנתונים הדרושים להם תוך כדי פעולתם, באופן זמני, כדי להאיץ את פעולת המחשב.

האבחנה בין 0 ל-1 (שני הערכים שהזיכרון, המשתמש בייצוג בינארי, יכול להכיל) מיושמת בשני סוגים של מתח חשמלי, כשאחד מייצג את ה-0 והשני את ה-1. רוב הזכרונות אליהם מכוון המושג RAM-Random Access Memory כיום הם נדיפים, כלומר מאבדים את הנתונים ברגע בו המחשב מכובה והזרם אליהם מופסק.

שגיאות בזכרונות:

שגיאות בזיכרון DRAM מתרחשות ברובן עקב קרינת רקע(מגורמים טבעיים או מלאכותיים), גלים קוסמיים (שלא בשליטתנו) או הפרעות חשמליות (לדוגמה OC מוגזם).

"שגיאה" בזיכרון היא למעשה תא סיליקון בזיכרון שבמקום לדווח בשפה בינארית 0, ידווח פתאום 1 ויוביל לתקלה מסויימת שהמשתמש יראה באופן כולשהו כי פעולת התוכנה אשר משתמשת באותו זיכרון באותו רגע פשוט תיכשל. התקלה יכולה להיות החל מרמה של טעות בדיווח פעולות ואי יציבות המערכת לעיתים רחוקות ועד לרמה של קריסה מיידית ומוחלטת (למשל מסך כחול) של התוכנה אשר מפעיל אותו תא זיכרון (במקרה הנדון מערכת ההפעלה והליך ה-BOOT).

מנגנון לתיקון שגיאות:

בזכרונות למחשב אשר אין מותקנים במערכות ביתיות בהן אין יותר מדיי פעולות קריטיות של קריאה וכתיבה ובזכרונות זולים אלו (כן כן, מה שיש לכם במחשב זה זול) המצויים במערכות "לא חשובות" (קרי השוק הביתי) אין מערכת לתיקון שגיאות.

בזכרונות לשרתים בחברות אשר כל נפילה שלהם גוררת אחריה נזק של מאות אלפי שקלים לשעה (לא מדובר במחשב של בן אדם אחד שלא עובד אלא בכל החברה ששרת הדואר שלה נפל לדוגמה) ישנו צורך בזכרונות עם ECC-Error Correction Code (ובעברית בדיקת שגיאות בהעברת נתונים) שמתגלמת בדמות סיבית ביקורת הנוספת לכל ביית (byte) של מידע ומציינת את זוגיות או אי זוגיות מספר הסיביות הפועל כרגע. זכרונות אלו יחד עם לוח אם יקר אשר משתמש ב-Chipset הכולל בקר זיכרון יקר התומך ב-ECC, יכול בזמן אמת לתקן שגיאות בזיכרון או לפחות למפות אותן כך שבעת ביצוע פעולה, הזיכרון לא ישתמש באותו מיקום על פרוסת הסיליון על מנת לאחסן את המידע שהתוכנה דורשת לאחסן באותה מילישנייה. מנגון ה-ECC שבודק שגיאות בהעברת נתונים למעשה מדווח לאורך זמן איזה רכיב זיכרון יש להחליף ע"י לתוכנות ניטור של יצרן ה-Chipset ולמשתמש.

הסיבה שכל הזכרונות למחשב הביתי לא תומכים ב-ECC היא כי:

- זיכרון זה מאוד יקר לפעמים עד פי-2 מאותו זיכרון ללא ECC

- לוח אם עם בקר תומך ECC ו-chipset לשרתים עולה לרוב גם כן פי-2 מלוח האם הכי יקר לשוק הביתי

- מהירות גישה (Latency) גבוהה יותר כי יש צורך לבדוק את רכיב ה-Parity, סיבית ביקורת הנוספת לכל ביית

האם זה מספיק ?

בואו נראה את הנתונים ממחקר שבדק תקלות זיכרון בשרתים של Google במשך שנתיים וחצי. אלו אותם שרתים בהם אתם ומיליוני משתמשים אחרים מחפשים בכל שנייה מילות חיפוש ונמצאים תחת עומס בל יתואר.

הנתונים:

- בשנה אחת, אחד משלושה שרתים נתקל בבעיות זיכרון שתוקנו בזמן אמת ע"י מערכות ECC ואפשרו לשרת להמשיך לעבוד.

- בשנה אחת, אחד ממאה שרתים נתקל בבעיות זיכרון שאינה ניתנת לתיקון ואותו שרת נפל.

- כל מודול זיכרון בשרתי גוגל נתקל בכ-4,000 תקלות בשנה שתוקנו ע"י מנגנון ECC. זכרו שתקלה שכל תקלה כזו ש"ניתן לתקן", היא תקלה שלא ניתן לתקן בזיכרון שלכם.

סיכום:

בשוק השרתים משקיעים בחומרה עם הגנות, מערכות כפולות וניטור שגיאות יקר ביותר אך מצד שני התוכנות אשר יושבות על שרתים אלו הן בדר"כ מסדי נתונים אשר מבצעים פי מיליון יותר פעולות כתיבה וקריאה לאורך חייו של השרת מאשר במחשב רגיל ועל כן "קורעות" אותו בקצב הרבה יותר גבוה. תקלות בשרתים הן הרבה יותר חמורות מאשר תקלות במחשבי PC מכיוון שבעוד שרת מחזיק את רוב המידע בזיכרון עקב ריבוי בקשות הגישה אליו ממשתמשים רבים ושומר מעט מידע על הכונן הקשיח עצמו, במחשב הפרטי, רוב המידע נמצא על הכונן הקשיח והמידע שנמצא בזיכרון הינו מועט יחסית ומשמש לשמירת קבצים של מערכת ההפעלה והתוכנות הרצות ברקע או תוכן שלא נערך עדיין.

פורסם

לא יודע מה נכנס בך פתאום שרשמת את זה.

לא היה עדיף פשוט לצרף את זה לסטיקי?

פורסם

לאתר הזה יש כח מטורף בגוגל!

לדוגמא אם תרשום carpc תקבל את הקישור לפרוייקט שלי לפעמים במקום הראשון.

ויש בקושי איזכור לנושא הזה באתר.

פורסם
  • מחבר

השיא יהיה כשיחפשו בגוגל "Google" ויקבלו את: "Did you mean HWzone ? "

פורסם

אלכס, אחלה כתבה חשובה ומועילה.

יש רק כמה הארות (לא עם ע):

- חלק לא מבוטל מהבורדים הביתיים, בא עם יכולות עבודה בזכרונות ECC או NON ECC, בלי תוספת מחיר, רק שמי שקונה שישים לב..

- הבדלי המחיר בזכרונות DDR3 למשל, שסתם חיפפתי חיפוש ב-NEWEGG, הם ב5-10% יותר יקרים, לדעתי שווה בענק.

- לא נעים בכלל כשהמחשב הביתי שלך נופל לך באמצע עבודה/משחק/מה שלא יהיה.. לא חייב להיות שרת של תאגיד מפלצת שיצדיק את המחיר. בהחלט שווה גם בבית.

פורסם

- לא נעים בכלל כשהמחשב הביתי שלך נופל לך באמצע עבודה/משחק/מה שלא יהיה.. לא חייב להיות שרת של תאגיד מפלצת שיצדיק את המחיר. בהחלט שווה גם בבית.

לא כל נפילה היא בגלל הזיכרונות!

פורסם

הנקודה היא שנפילה היא נפילה, היא נפילה... לא נעים בשום מצב.

..ואם ניתן למנוע סוג מסויים של נפילה ע"י תשומת לב חד פעמית במעמד הקניה ו/או ע"י עוד כמה שקלים בודדים - ציחקת אותה.

פורסם

מה זה קשור? לא סתם זה פחות רלוונטי למחשבים ביתיים. או שהזיכרון תקין או שהזיכרון לא תקין. BSOD/תקיעה? אם Memtest נותן אישור אז הכל טוב ויפה, אפשר לחפש את הבעיה במקום אחר.

פורסם

קח את זה באיזי..

בשביל מה לסבך ולהסתבך בכלל בטסטים כאשר אפשר מראש להימנע מהבעיה? כולה אגורות.

בגללך שמתי לב שאפילו בבורדים הישנים יש תמיכה ב-ECC (וגם ב-NON ECC). אם זה לא היה חשוב, תאמין לי שהיצרנים היו מתים לחסוך לעצמם הוצאה כזו ועובדה שהם לא.

פורסם

פעם זה היה יותר רלוונטי, היום במעבדים הביתיים בקר הזכרון המובנה לא תומך בECC

רק במעבדי XEON

פורסם

אם Memtest נותן אישור אז הכל טוב ויפה, אפשר לחפש את הבעיה במקום אחר.

אז זהו, שלא : מיד לאחר שהפעלתי את המחשב החדש-ישן (ששודרג בתחילת החודש הזה), ועוד לפני ההפעלה הראשונה של מעה"פ (נחמד שבלינוקס אין הכרח "להתקין מחדש" :)), הפעלתי את +Memtest86 והשארתי אותה בבדיקה רציפה לכ-5~ שעות. בבדיקה זו לא נתגלתה ולו שגיאה יחידה.

שמח וטוב לב, ביצעתי הפעלה מחדש, והפעם הפעלתי את מעה"פ, ופניתי לשימושיי הרגילים במערכת (כולל הידור רכיבי-תוכנה מרובים - בגירסאות חדשות, ששוחררו מאז שהמערכת הופעלה בפעם הקודמת, כחודש לפני אותה עת).

אלא שדברים קצת "חרקו" : למשל, הידור רכיבי-תוכנה מורכבים נטה להיכשל בסבירות-גבוהה, ובשלב אקראי-יחסית.

לאחר זמן מה החלטתי לבדוק את העניין, ולהתחיל מתת-מערכת הזיכרון-הראשי - והפעם באמצעות כלי-תוכנה שונה. ולהפתעתי, לאחר אי-אלו עשרות דקות נתגלתה שגיאה ראשונה, ולאחריה אף נוספות...

ולאחר המשך בירור יסודי - ותוך שימוש בכלי-תוכנה נוספים, הסתבר שרק אחת מתוך שתי יחידות הזיכרון (החדשות) הנה תקינה ! (ומשום שכך הערכה כולה - על שתי היחידות שנכללו בה - נשלחה לפני כשבוע להחלפה ביצרן)

פורסם

לעניות דעתי ועם כל הכבוד ל-OMRIJ, בבדיקה חפיפית שלי ב-Newegg בין הבורדים החדשים שנמכרים כיום, לא היה אחד שלא תומך גם ב-ECC. (לא בדקתי את ענין המעבדים, אלא בורדים שמצוין עליהם מפורשות שהם תומכים בזכרונות ECC)

פעם זה היה יותר רלוונטי, היום במעבדים הביתיים בקר הזכרון המובנה לא תומך בECC

אגב, הסלאלום הקטן (יחסית) של hw_joe עם המחשב שלו רק ממחיש כמה חשוב ה-ECC.

פורסם

בקר הזכרון במעבדים החדשים (נהלם של AMD וכל המעבדים של AMD כיום) לא נמצא בלוח האם, הוא נמצא במעבד

והמעבדים הביתיים כוללים בקר שלא תומך בECC, אז זה לא ממש משנה איזה לוח זה, כל עוד לא תקנה XEON או OPTERON לא תוכל ליהנות מECC

ארכיון

דיון זה הועבר לארכיון ולא ניתן להוסיף בו תגובות חדשות.

דיונים חדשים