כח אדיר בתושבת של AMD: מעבדי Ryzen 7 3700X ו-Ryzen 9 3900X בביקורת

פורסם 2019 ביולי 137 שנים

בארכיטקטורת ZEN זיכרון מטמון מרמת L3 פועל במנגנון Victim Cache. הוא אוגר שורות שנפלטו משתי רמות זיכרון המטמון הגבוהות יותר.

כל המיתוג מחדש שלו כ-Gamecache הוא בחלקו התייחסות לבעיה הכי גדולה של ארכיטקטורת ZEN. החלוקה לשני CCX פירושה שאם ה-Scheduler מקפיץ תהליכון מ-CCX אחד לאחר, או אם יש צורך לשתף מידע בין תהליכונים שרצים על CCX שונים, יש לזה מחיר בדמות עכבה גבוהה. Windows מאוד אוהבת להקפיץ תהליכונים גם בלי סיבה וזה חלק מהבעיות שהיו לרייזן במשחקים בתחילת הדרך. עדכון ה-Scheduler כדי לרסן את ההתנהגות הזאת ואופטימיזציה במשחקים כדי לנעול תהליכונים ל-CCX מסוים שיפרו את המצב.

במצב הזה מנגנון ה-Victim Cache עובד יותר טוב כי מאפשר להשתמש במידע שנפלט מרמת מטמון גבוהה יותר בלי צורך לגשת לזיכרון. זה בתיאוריה אמור לעזור במשחקים, בעיקר כאלה שהם מאוד דינאמיים, אבל בפועל המצב הרבה יותר מורכב כך שמדובר בלא יותר ממבו ג'מבו שיווקי (והמונח מופיע בעיקר במסרים לשוק הגיימינג. במפרטים עצמם, שפונים גם לקהל שעבורו "גיימינג" נתפס כמשהו מצועצע ולא איכותי, הוא עדיין נקרא L3). לגודל זיכרון המטמון אין קשר חד-חד ערכי לשיפור ביצועים (כלומר גדול יותר אינו בהכרח טוב יותר). הוא נבחר בהתאם לדרישות הארכיטקטורה.

נערך 2019 ביולי 137 שנים על-ידי About:blank

ציטוט

פורסם 2019 ביולי 137 שנים

ציטוט

פורסם 2019 ביולי 147 שנים

ענק

ציטוט

פורסם 2019 ביולי 147 שנים

מעניין מתי ניראה את הריענון של כל ניידי הAM4, כעת עם 3700X הם יכולים להיתחרות בהצלחה בניידי 9900K אפילו תוך פליטת חום נמוכה יותר וחיי סוללה משמעותיים יותר חח.

ציטוט

פורסם 2019 ביולי 147 שנים

ציטוט של About:blank

לגודל זיכרון המטמון אין קשר חד-חד ערכי לשיפור ביצועים (כלומר גדול יותר אינו בהכרח טוב יותר). הוא נבחר בהתאם לדרישות הארכיטקטורה.

לעניין נפח ה- cache ישנה משמעות כזו:

שהוא מקטין את כמות ה- miss ובעטיה את הצורך לרדת עד לרמת הזכרון הכללי RAM של המחשב. בואו נלמד איך זה פועל:

כאשר מטמיעים cache Level 3 כפול נפח (כמו שהוטמע אכן בריזן דור 3000) לעומת מה שהיה מקובל עד הלום

בריזנים הקודמים, העלו את נפח הזכרון מטמון Level 3 מ- 16MB ל- 32MB פר cluster (לכל יחידת 8 ליבות),

נוצר מצב שלאחר הכפלה זו, הסיכוי בכל גישה ל- cache שהערך המבוקש אכן ישב בו, הוא סטטיסטית סיכוי כפול.

כלומר הורידו את מקרי ה- miss לחצי. זאת קורה משום שפי שניים חומר יושב ב- cache בכל רגע נתון.

הדבר מקטין איפה את כמות האירועים של ירידה עד לדרגת ה- RAM המכונה Level 4 בחצי, ירידה שהיא כידוע דרגה

איטית בסדר גודל לעומת הגישה ל- cache Level 3. למעשה מדובר פה במהירות גישה שהיא פי 20 יותר איטית, כ-

1000GB/sec לעומת רק 50GB/sec (ראו תמונה מטה).

ישנם יישומים/אלגוריתמים לא מעטים שבהם ישנה גישה רבה רפטיטיבית לאותם תאים בזכרון (במחסנית של היישום),

ואז לגודלו של ה- cach הכפול ישנה השפעה מאד משמעותית בשיפור הביצועים.

למשל לאלגוריתמים הקשורים לתחום דחיסה, פריסה, הצפנה....

כולנו ראינו יפה הכיצד ריזן 3000 פרץ בתחום זה קדימה ועקף את אינטל. את זה ממש רואים אחד לאחד הלכה למעשה

בבנצ'ים כך שאין פה הפתעה.

מנגד ביישומים/אלגוריתמים שבהם הגישה לזכרון היא בדפוס יותר ראנדומלי-אקראי ואינה מבקשת שוב ושוב את אותם התאים,

כמו למשל גישה לקריאה מ- data base של SQL, שם לגודל מרכיב ה- cache ישנה חשיבות מופחתת, שהרי ממילא ברוב

המקרים שרת SQL ניגש עד ל- RAM, משום שבכל גישה זה כמעט תמיד לתא אחר בזכרון (גישה אקראית), כגון הרצת דוח

(שאילתות), או בכתיבה של תא כל פעם למקום אחר ב- DB (פעולת insert).

כלומר צריכים להבין איך עובד cache hierarchy מבחינה מתודולגית-אלגוריתמית, פה טמונה המהות,

ומכאן לקשר מתי הוא תורם (ומאד), ומתי תרומתו זניחה עד בלתי רלוונטית.

כמוסבר מעלה, זה תלוי האם הגישה היא מחד רפטיטיבית לאותם ערכים, או מאידך אקראית ואין חזרה על אותם תאים.

כך או אחרת הכפלת נפח ה- cache level 3 שהכניס לראשונה מעבד ריזן 3000, לנפח חדש תקדימי בתעשיית המעבדים

32MB per cluster (היה 16MB עד הלום), תהיה תרומה לא מעטה לביצועי המכונה, וזו אחת הסיבות שמסבירות לנו את

הקפיצה המרשימה בכ- 15% IPC לעומת הדור הקודם. קרי להכפלת נפח ה- cache לבדה כבר ישנה תרומה ישירה לנושא,

כאשר השפור הוא בעיקר במקומות/אלגוריתמים שבהם ישנן גישות רפיטיטיפיות לאותם תאים בזכרון.

אגב, באינטל הדור הבא גם ביצעו שדרוג משמעותי של נפח ה- cache, קרי שגם אינטל פועלת בטכניקה דומה על מנת

לשפר את ה- IPC בארכיטקטורה הבאה שלה. זה לא מקרי שזה כך, זו אחת הדרכים לבצע זאת.

אילו cache לא היה יקר כל כך במונחי טרנזיסטורים שהוא גוזל מכלל שטח השבב, היינו רואים מעבדים עם נפחים אדירים

של המשאב הזה. תרומתו הביצועית משמעותית (מאד) בחלק ניכר מהאלגוריתמים השימושיים בעולם המחשוב.

מנינו מעלה כמה מהם לדוגמא ויש עוד רבים.

Image result for aida64 ryzen 3000

נערך 2019 ביולי 147 שנים על-ידי nec_000

ציטוט

פורסם 2019 ביולי 147 שנים

אי אפשר להשוות ישירות בין זיכרון המטמון של ארכיטקטורת Core ו-ZEN/ZEN2.

שנית, נפח גדול יותר של זיכרון מטמון לא תורם בהכרח לביצועים. ככל שעולים בנפח, כך גדלה גם העכבה (Latency) וכאן מבנה ואופן הפעולה של הארכיטקטורה בא לידי ביטוי.

אם לא היה לנפח מחיר בדמות עכבה, מדוע לא לתקוע זיכרון מטמון L1 גדול ייעודי לכל ליבה ולגמור עניין (ובאכיטקטורת ZEN2 זיכרון המטמון L1-I, זה שאוגר את ערכות הפקודות, דווקא קטן)?

הבעיה של ZEN לעומת אינטל היא עכבה גדולה בגישה לזיכרון המטמון, שרק מחריפה בגלל הפיצול בין ה-CCX כי הגישה המסורתית של מערכות ההפעלה היא לפזר את התהליכונים רחוק ככל האפשר זה מזה (Thread expansion) כדי למנוע עומס חשמלי נקודתי ברמת הסיליקון. גישה סבירה בארכיטקטורה מסורתית, אבל כזאת שלא מתאימה ל-ZEN.

משחקים מושפעים מזה מאוד כי בניגוד לעבר משחקים מודרנים יוצרים מספר תהליכונים ופיזורם בין CCX שונים מוביל לעכבה גבוהה מאוד בשיתוף מידע וביצועי משחקים נפגעים מזה לא מעט.

עד כמה שאני יכול להסיק, הגדלת זיכרון מטמון L3 והשינוי הקטן בזיכרון מטמון L2 (שיפור ה-Associativity) נועדו בעיקר כאופטימיזציה לביצועי משחקים (אבל גם תוכנות אחרות עשויות להרוויח) ולכן המיצוג (הטיפשי לדעתי) של Gamecache.

השיפור ב-IPC לא מושג רק בזכות הגדלת זיכרון המטמון. הוא יסודי יותר, בעוד שזיכרון המטמון הוא יותר אופטימיזציה.

מהסיבה הזאת ארכיטקטורת ZEN מיישמת זיכרון מטמון ברמה L3 במנגנון Victim Cache כדי לאגור שורות שנפלטות מרמה L2 שהיא מהירה יותר אבל קטנה יותר, מתוך הנחה שבשימושים מסוימים קיימת סבירות גבוהה שמידע שנפלט מרמת זיכרון גבוהה יותר יהיה נחוץ בהמשך. שקלול התמורות כאן הוא שהזיכרון איטי יותר.

הנחת העבודה היא שעם עדכון ה-Scheduler (בעדכון הגדול האחרון של Windows אמור היה להיות שיפור נוסף) למצות CCX אחד עד הסוף לפני גישה לאחד אחר וערכת הפקודות WBNOINVD שמטרתה לחזות מדי יהיה צורך לטעון מידע לזיכרון מטמון L1 ולפנות את הנפח הזה מבעוד מועד על ידי העברתו לזיכרון מטמון L3 (דומה לפונקציית הדפדוף בכתיבת תוכן זיכרון RAM לדיסק ושליפתו משם לפי הצורך) לנפח זיכרון מטמון L3 גדול יותר תרומה משמעותית יותר מהמחיר בעכבה.

הביצועים בפועל תואמים להנחת העבודה הזאת.

מעבר לזאת, לא חקרתי על זה לעומק ואם זה אכן ייושם, אבל זכור לי במעורפל משהו ש-AMD הזכירו על כך שיש חציצה לוגית כלשהי ברמת זיכרון המטמון L3 כך שכל ליבה ניגשת למקטע הזיכרון שהכי קרוב אליה פיזית כדי להקטין את העכבה. בדרך כלל פירושה של חציצה כזאת היא שלא כל זיכרון המטמון זמין לכל ליבה באותה מידה.

מה עוד, ש-AMD מובילה מסורתית על אינטל בביצועי MLP ככה שמספרים על הנייר לכאן או לכאן (לאינטל עכבה נמוכה, ל-AMD נפח גדול) לא אומרים הרבה. תמיד מתקיים שקלול תמורות וכל עוד הבחירות נעשות כדי למצות מה שאפשר מהארכיטקטורה, המספרים עצמם, כולל בין דורות שונים של אותה ארכיטקטורה, הם די חסרי משמעות. לא תמיד מפרט עם נתון גדול או מהיר יותר הוא יותר טוב.

נערך 2019 ביולי 147 שנים על-ידי About:blank

ציטוט

פורסם 2019 ביולי 147 שנים

כבר לא,

העכבה = latency של ריזן 3000 טובה יותר מזו של אינטל (קרי נמוכה יותר) וגם הרוחב פס רחב יותר (ולא במעט).

למעשה הארכיטקטורת cache של ריזן שופרה מעל זו של אינטל "בדור שלם", תיכף נראה מטה קצת מספרים על מנת

להתרשם. אחת התרומות לכך היא הליטוגרפיה שמאפשרת זאת - שהיות והיא צפופה יותר אזי מסלולי האות קצרים יותר

כמו גם היכולת לחבר ממשק רחב יותר לוגי (יותר סיביות) כי יש יותר מקום כשהמוליכים קטנים יותר ומצופפים יותר.

נוכל לשים לב שלא רק שה- cache level 3 בריזן 3000 מהיר ב- latency בכ- 10% (9.4ns לעומת 10.5)

אלא שהרוחב פס הוא דרמטית גדול יותר - 1044GB לשניה לעומת רק 397GB באינטל.

ההבדל ברוחב פס נובע בעיקר משום גישה רחבה יותר סיבייתית:

בריזן 3000 הוא ברוחב פס 2048 סיביות, בעוד שבאינטל הוא רק 512 סיביות (level cache 3)

למעשה לריזן 3 ברובד cache level 3 - גם פי 2 נפח , גם 10% עכבה נמוכה יותר, וגם רוחב פס גדול פי 4

(בסיביות), שמתורגם לבערך פי 2.5 עד פי 3 בביצועים (של הבנץ הספציפי של Aida64 - נובע מהפרש תדר

עבודה של המעבד).

להלן להתרשמותנו השוואת 9900k בצד שמאל מול ריזן 3000 בצד ימין:

אם לשיטתנו נבחן מה קורה ב- level 2 cache אז נוכל להתרשם כי:

בריזן 3000 ישנו נפח (שוב) כפול מזה שבאינטל, 512MB לכל ליבה כשבאינטל 256MB,

זמן התגובה (עכבה) די דומה 2.6 לעומת 2.4 ,

אבל רוחב פס של 2048 סיביות לעומת רק 1024 באינטל, שמוביל לכמעט פי 2 בביצועים בבנץ של Aida

(בגלל הפרשי תדר מעבד אגב) לכדי 1624GB לעומת 945GB.

ואם נרד לרמה של cache level 1 נוכל להתרשם:

בריזן 3000 ישנו נפח כמו זה שבאינטל, 64MB לכל ליבה,

זמן תגובה 0.9ns לעומת 0.8ns ,

אבל רוחב פס של 4096 סיביות לעומת רק 2048 באינטל, שמוביל לבערך 1.5 בביצועים בבנץ של Aida

(בגלל הפרשי תדר מעבד - ומגבלת הספק העיבוד ברובד זה) לכדי 3,292GB לעומת 2,471GB .

**הביצועים של ה- cache ברובד L1 חסומים מלעיל "בקצב הבליעה" של ליבת המעבד - למרות שתאורטית הם גבוהים

הרבה יותר, ואילו היה מעבד "שיכול לאכול" יותר פר clock אז הוא היה אוכל יותר מהרמה הזו של זכרון.

לשאלה התאורטית שהעלת מדוע לא לתקוע יותר level 1 cache במקום לחלקו לרמות L2 ו- L3 - שזו שאלה טובה

כי היא מאפשרת להסביר את הסגמנטציה ותודה לי על ההזדמנות (שאלה חכמה):

ככל שהזכרון מטמון מהיר יותר, הוא מצריך גישה קרובה וסמוכה יותר (בשביל עכבה נמוכה) ורחבה יותר בסיביות

(בשביל רוחב פס), אל ליבת המעבד. הבעיה היא שאי אפשר להשיג את שלושת הפרמטרים בו זמנית:

או שמחברים הרבה סיביות, ועכבה נמוכה בשביל מהירות, אלא שאז לא ניתן להכיל נפח גדול בגלל הסמיכות הגאוגרפית

לליבה שאין מקום גדול דיו בסמוך לה, או שמתפשרים על רוחב פס וריחוק מהליבה - אך בתמורה להשיג יותר שטח נדלני ,

כזה שניתן להקצותו, אך גם מקבלים בגלל השטח הזה ריחוק מהליבה אלמנט שמעלה את העכבה.

עוד נושא זה שיתוף, רוצים לנצל את ה- L3 על מנת לתקשר בין הליבות, ולכן זה זכרון מטמון משותף בין כל הליבות

או אם נרצה אפיק התקשורת הבין ליבתי.

חילקו למעשה 4 רמות את המעבדים המודרניים:

L1, L2, L3 ואחריו ה- RAM שנחשב כ- L4.

L1 ו- L2 יעודיים לליבה, בשעה ש- L3 ו- L4 משותפות לכל המעבד ומאפשרות תקשורת בין מערכתית בין רכיביו השונים

של המעבד.

נערך 2019 ביולי 147 שנים על-ידי nec_000

ציטוט

פורסם 2019 ביולי 147 שנים

בדיקות אחרות מראות תוצאות הפוכות. על פי הבדיקה הזאת ZEN2 עם עכבה נמוכה יותר משמעותית ברמה L3 גם לנומת ZEN/ZEN+. משהו פה לא מסתדר.

וזאת בדיוק האופטימיזציה לארכיטקטורה. עכשיו כשמערכת ההפעלה מנהלת תהליכונים יותר טוב בהתאם למבנה הארכיטקטורה (ריכוז תהליכונים של אותו יישום ב-CCX אחד), הפוטנציאל של הארכיטקטורה בא יותר לידי ביטוי.

נערך 2019 ביולי 147 שנים על-ידי About:blank

ציטוט

פורסם 2019 ביולי 147 שנים

תקרא עשיתי עוד עריכה לפוסט.

כמו כן קשה לי להעלות הכל על כתב - זה לוקח זמן שאין לי תמיד.

אשתדל להשלים את המענה תוך כדי...אז יהיו עוד עדכונים בנושא ממני.

מנסה להתייחס לכל נושא שהעלאת - השאר בהאזנה.

ציטוט

פורסם 2019 ביולי 147 שנים

דווקא העכבה לזיכרון DRAM גדלה.

חשבתי שוינדוס פועל בשיטת Round-robin scheduling עם אינטרפטים של המעבד מדי פעם לאמוד זמן

ציטוט

פורסם 2019 ביולי 147 שנים

זאת הייתה שאלה רטורית. ברור שגודל בא על חשבון מהירות ולהפך, ולכן זיכרון מטמון L1 הוא הקטן ביותר כי חשוב שיהיה המהיר ביותר.

אם לסכם את כל מה שאמרתי, הערכים המספריים של גודל ומהירות לכשלעצמם הם די חסרי משמעות, בטח בהשוואה בין ארכיטקטורות שונות. להגדלת גודל זיכרון מטמון L3 יש יתרונות אבל גם מחיר. הגדלתו היא לא פתרון קסם לשיפור ביצועים, והגדלתו שלא לצורך בארכיטקטורה נתונה יכולה אף להוביל לפגיעה בביצועים.

נ.ב. יכול להיות שהבדיקה של AIDA מודדת רק ביצועי ליבה בודדת?

ציטוט

פורסם 2019 ביולי 147 שנים

לשאלתך about blank,
כמדומני כן - ליבה בודדת. אבל אינני סגור על זה לחלוטין וצריך לבדוק לעומק. תהיה מבורך אם תעשה זאת ותעדכן אותנו בחוזר.

עכשיו לנושא השני שכתבת,

לגודל זכרון מטמון יש בהחלט השפעה, הוא משפר כתלות באלגוריתם הממומש או במילים אחרות - באופי הגישה לזכרון

לפי סוג היישום. הסברתי זאת הבוקר כמה פוסטים מעלה, שאם מדובר בגישה רפטיטיבת רבה למחסנית אז לגודל

זכרון מטמון יש יתרון חשוב. אם מדובר יותר באפיון גישה אקראית, אז גודל המטמון פחות משפיע (אם בכלל).

המקומות העיקריים שבהם לגודל מטמון L3 (ספציפית) יש משמעות היא ביישומים מתמטיים, שאלו בעיקר עבודות שרתיות

מקצועיות, או תחנות עיבוד workstations שעוסקים באותם יישומים מתמטיים.

הדבר פחות בא ליידי ביטוי בסביבת עבודת PC סטנדרטית משום ששם הכורח בגישות זכרון רפטיטיביות קטנה יותר.

משכך ארכיטקטורת ריזן 3000 תצא חזקה יותר בבנצ'ים של שרתים לעומת ארכיטקטורת אינטל הנוכחית.

יש מצבים שבהם מדובר בעשרות אחוזים של שפור, לא צחוק, בגלל שהמעבד לא צריך לרדת ל- RAM כל כך הרבה כשיש

זכרון מטמון גדול. ראינו מה קורה בכווץ /פריסה שהודגמו בסקירה האחרונה של ריזן 3000 לעומת אינטל.

הקפיצה שהדבר הביא לריזן לעומת קודמו ריזן 2000 היא דרמטית לא פחות.

עכשיו,

אחד הרעיונות שהיו לי ואני משתף כאן את הפורום, הוא להטמיע עמודת HBM בצמוד ל- PCB של ה- CPU,

בכדי לתת לו עוד שכבת cache level 4. בעמודת אחת (אם נשאיל מעולם ההאצה הגראפי GPU) בת 1024 סיביות,

אפשר לספק רוחב פס עד כדי 256GB/sec (בקצבי תדר של היום), שזה המון, אבל עם נפחים אדירים של 1-4GB RAM בקלות.

נשים לב שקצב זכרון שכזה מהיר מ- RAM רגיל פי 5-10 סדר גודל (תלוי מול איזה מעבד מודדים).

אפשר גם להטמיע 2 עמודות לכדי 512GB/sec אם רוצים עוד מהירות (נפח נוסף כבר לא צריך - אנחנו באזור של ג'יגות בשלב הזה).

אפשר רק לדמיין מה ההשלכה של כזה זכרון מטמון דרגה רביעית יעשה לביצועי מעבד CPU, ביישומים שצריכים הרבה

זכרון מהיר ונגיש (במיוחד בשרתים). הדבר יהיה מהפכה של ממש בתעשיה. התוספת עלות למעבד להערכתי הזריזה צריכה להיות

בין 50-100$ בלבד (סדר גודל עקרוני) לעמודה אחד. כפול מזה לשני עמודים.

לא אתפלה אם בהמשך נתחיל לראות מעבדים שכאלו גם, לפחות בהתחלה לסגמנט שרתים כי שם זה מאד משמעותי.

אני חושב אפילו להעביר הצעתי זו לאינטל ו/או ל- AMD שיבחנו אותה, כמקפצה לשפור ביצועי במעבדי ההמשך שלהם.

אני רואה לנגד עייני מעבדי ענק 32-64 ליבות לסגמנט שרתים xeon/epyc שמחזיקים 4 מגדלים שכאלו, רוחב פס 1024GB/sec,

ונפח כולל של 32GB. אלו מעבדים של 1000-5000$ הרי ממילא כבר, עבורם התוספת מחיר הנדרשת להטמעת HBM בטלה בשישים.

ה- performance יהיה מטורף ולא משהו שראינו במחוזותינו.

היתרון של cache level 4 ענק שכזה ילך ויגדל ככל שהמעבד יחזיק יותר ליבות - קרי יוכל לאכול יותר אוכל פר קלוק.

אנחנו עוד מעט לפני 128 ליבות פר סוקט, זה הפתרון שתפור לו כמו כפפה ליד. מהירות זכרון RAM רגיל מזמן שאינה מספקת

סוקט של מחשב מודרני, ולכן המעבד אינו מצליח למצות את מלוא הפוטנציאל שלו. את זה אני רוצה לפתור.

נערך 2019 ביולי 147 שנים על-ידי nec_000

ציטוט

פורסם 2019 ביולי 147 שנים

ציטוט של Jabberwock

דווקא העכבה לזיכרון DRAM גדלה.

חשבתי שוינדוס פועל בשיטת Round-robin scheduling עם אינטרפטים של המעבד מדי פעם לאמוד זמן

להערכתי (ניחוש מושכל שכנראה הוא די נכון) זה קרה בגלל התצורה החדשה של שימוש ב- IO die נפרד לליבת המעבד,

מה שמעלה את מסלול האות (משמעותית) צריך לצאת מה- die להגיע ל- IO chip, והוא זה שבתורו פונה לזכרון.

הדבר מעלה latency ולא במעט.

העניין הוא שה- latency ל- RAM פחות רלוונטי ברגע ש- inter chip communications כבר לא עובר דרכו עוד,

אלא דרך - IO chip עצמו (מבלי לצאת החוצה משם).

כלומר הגדילו latency במקום אחד, על חשבון קיצור latency במקום אחר. בפרקטיקה ראינו כי הדבר שיפר את ביצועי

המעבד המדידים, ולא נסג אחורה בשום סעיף מדיד כלשהו. אז אפשר להיות רגועים.

ציטוט

פורסם 2019 ביולי 147 שנים

ציטוט של About:blank

Windows מאוד אוהבת להקפיץ תהליכונים גם בלי סיבה

אגב הנושא הזה שכתבת מאד מעניין, אבל יש לו סיבה - הוא לא נעשה סתם:

מערכת ההפעלה מבצעת סבב של תהליכונים על פני הליבות במטרה לבצע הומוגניזציה של ניצולת המעבד.

שאיפה להביא למצב שכל הליבות יהיו מועמסות באופן זהה ושווה זה לזה (עד כמה שניתן כמובן).

קרי שלא יהיה מצב בו ליבה אחת נחנקת למשל ב- 100% עומס (כי למשל היא תקוע עם פרוססים כבדים שהתישבו

עליה ולא זזים ממנה) וכך הם זוכים לפחות הספק שמטפל בהם, בגלל שלא מעבירים אותם ומחלקים אותם טוב יותר,

אז הם חונקים את הליבה, בעוד יתר הליבות די מובטלות בצד ללא שימוש נבון.

הרצון הוא ביצוע סבבים (אקראיים לפעמים), שבתורם תורמים להומוגניזציה המשפרת את הממוצע עומס

על פני כלל הליבות. להגיע ל- 25% נגיד בכל אחת מ- 4 הליבות למשל, ולא הכל בליבה אחת.

תראו task manager איך המערכת מנסה להגיע למצב שכל הליבות יועמסו בהומוגניות ולא רק אחת מהן

סוחבת עליה הכל ברגע נתון. כך ביצועי המעבד הכוללים עולים, משום שישנה חלוקה מיטבית של resource-ים.

סיבה שניה היא פיזור טוב יותר מבחינה תרמית, כדי לפזר את החום על פני כל השטח באופן הומוגני.

סיבה משנית אבל גם היא טובה.

אך במידה וההעברה הזו של תהליכונים יוצרת חסרון בארכיטקטורה כזו, שבה למיקום הפורסס במרחב הגאוגראפי

של המעבד ישנה משמעות, כמו שזה למשל קורה בריזן - בגלל החלוקה המוכרת למודולים נפרדים (CCX-ים),

אז האלגוריתם של מערכת ההפעלה מקבל עדכון שמלמד אותו, שאם זה במקרה מעבד ריזן, אז שיפסיק להקפיץ

פרוססים בין הליבות ויותר מזה, מאפשר לקוד תוכנה הרשאה להציב את הפרוססים שלה במידת גמישות

ובחירה עצמאית. כמו למשל לתת ליישום לרוץ עם כל הפרוסים שלו כולם ב- CCX אחד. זה משהו שהוסף

למערכת ההפעלה חלונות עם הזמן ו- patch-ים שהיא קיבלה לאחר שריזן נולד, ולכן אנחנו רואים לא אחת שפור

ביצועי של המעבד הזה בעת היותר אחרונה. המעבד מה שנקרא aged well בגלל שהתחילו להתייחס אליו

בתזמונים של מערכת ההפעלה ובקוד של תוכנות, שעתה מתאפשר בידם לנהל את התהליכים באופן יותר גמיש.

ריזן נולד כמשהו חדש, שלקח זמן ללמוד איך לאכול את הארכיטקטורה שהוא הביא ולנצלה נכון.

נערך 2019 ביולי 147 שנים על-ידי nec_000

ציטוט

פורסם 2019 ביולי 147 שנים

ציטוט של TheHwGeek

מעניין מתי ניראה את הריענון של כל ניידי הAM4, כעת עם 3700X הם יכולים להיתחרות בהצלחה בניידי 9900K אפילו תוך פליטת חום נמוכה יותר וחיי סוללה משמעותיים יותר חח.

סביר להניח בתוך רבעון גג 2.

דווקא בלפטופים יתרון ה- 7nm של AMD משחק לטובתם באופן משמעותי יותר מאשר ב desktop.

שהרי אין משמעות לצריכת חשמל ב- PC מוזן חשמל מהקיר, אבל כן יש משמעות גדולה במוצר נייד שמוזן סוללה.

מדובר במשך זמן עבודה עד צורך בטעינה חוזרת.

ציטוט

כח אדיר בתושבת של AMD: מעבדי Ryzen 7 3700X ו-Ryzen 9 3900X בביקורת

Featured Replies

ארכיון

דיונים חדשים

שרת NAS עם Jonsbo N3 #2

מסך 5K רחב (Dell UltraSharp U4025QW), בכמה שונה ממסך 4K רגיל (לא רחב)?

מחשב מרעיש מאוד בזמן משחקים

ייעוץ לקניית מחשב נייד לסטודנט למדעי החברה

חוות דעת על מפרט מחשב נייח חזק לגיימינג, פיתוח משחקים, ואימון AI - תקציב גמיש (18K+)

כתבות אחרונות

סוני מוחקת מאות סרטים מספריית הפלייסטיישן: תזכורת חדה לכך שאינכם הבעלים של התוכן שקניתם

טסים בקרוב? ג'מיני יפתור לכם את הג'ט לג – אם רק תתנו לו את המפתחות למייל

יש גם בלבן – ניסינו מסך OLED מדגם MO27Q2A ICE של GIGABYTE

ה-4K OLED נעשה זול יותר – ניסינו את MO32U24 של GIGABYTE

שווה את החיסכון? בדקנו את כרטיס המסך Radeon RX 9070 GRE

מיקרוסופט זונחת את האפליקציות ואת ווינדוס לטובת סוכני ענן חכמים – הכירו את Solara, מערכת הפעלה עבור סוכני AI

Account

Navigation

חיפוש

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)

עקבו אחרינו ברשתות

ארכיון

Configure browser push notifications

Chrome (Android)

Chrome (Desktop)

Safari (iOS 16.4+)

Safari (macOS)

Edge (Android)

Edge (Desktop)

Firefox (Android)

Firefox (Desktop)