מפלצת שקשה לתאר במילים: NVIDIA חושפת את ליבת ה-Volta שלה

עם יותר מ-20 מיליארד טרנזיסטורים, תהליך ייצור חדש ומימדים פיזיים עצומים, מפתחת השבבים הירוקה מקווה לבצע מהפכה נוספת בעולם הלמידה החישובית והבינה המלאכותית – ואנחנו כבר מפנטזים על דור ה-GeForce החדש לגיימינג

קיווינו לקבל אזכורים כלשהם לארכיטקטורת ה-Volta החדשה והמסקרנת של חברת NVIDIA במסגרת אירוע ה-GTC השנתי שלה שהתקיים בקליפורניה – אך אנחנו מוכרחים להודות כי לא ממש ציפינו לחשיפה רשמית מלאה, מאסיבית ומרשימה כמו זו שקיבלנו בפועל. המפתחת מסנטה מוניקה שוב הצליחה להותיר אותנו בלי יותר מדי מילים, כשהכריזה על ליבת ה-GV100 שלה שאמורה לקחת את עולם העיבוד עתיר הביצועים לרמה שונה לגמרי. שוב.

המפלצת שלה חיכינו מאז שנת 2014

עידן ה-Volta של NVIDIA נפתח בסערה עם תהליך ייצור חדש, אצל השותפה הוותיקה TSMC, שאפילו קיבל את שמה של החברה – 12 ננומטר מסוג FFN, כשראשי התיבות הם עבור טרנזיסטורי FinFET תלת מימדיים ועבור NVIDIA. בנוסף לתהליך הייצור שאמור להיות יעיל יותר מתהליך ה-16 ננומטר של החברה הטאיוואנית הענקית (ולכאורה גם יעיל מתהליכי ה-14 ננומטר של מתחרות כדוגמת סמסונג ו-GlobalFoundries). כמו כן, יש לנו ארכיטקטורה שונה משמעותית שכוללת עתה ליבות חדשות לגמרי שקיבלו את הכינוי Tensor Cores, ומתווספות אל ליבות ה-CUDA המוכרות לנו היטב, עם התאמה ספציפית לביצוע פעולות חיבור וכפל של מטריצות קטנות במימדים של 4 (ביטים) על 4, ואחסון התוצאות המתקבלות בתאי נקודה צפה של 16 ביט או 32 ביט לפי הצורך, לשם המשך העיבוד בידי שאר הליבות.

חישובי טנזורים הם שם המשחק החדש

מערך זה אמור להיות אפקטיבי ומועיל במיוחד עבור יישומי למידה חישובית ולמידה עמוקה, וכן עבור יישומים מבוססי בינה מלאכותית הנגזרים בחלק גדול מהמקרים מתוך נתונים אלו, שבהם הדגם הוא על עיבוד מקבילי פשוט, רחב ההיקף ומהיר ככל האפשר – וזה מאפשר ל-NVIDIA להכריז כי ליבת ה-GV100 המאסיבית מעניקה ביצועים של עד 120TFLOPS לחישובי טנזורים,  עד 30TFLOPS בחישובי 16 ביט (חצי דיוק), עד 15TFLOPS בחישובי דיוק 32 ביט סטנדרטי וגם עד 7.5TFLOPS של חישובי 64 ביט בדיוק כפול – כמעט 50 אחוז יותר מליבת ה-GP100 המלאה, שעד היום הייתה אלמנט העיבוד המקבילי העוצמתי ביותר בעולם כולו. מדהים!

ביצועים דמיוניים בכל קנה מידה באשר הוא

על מנת להגיע לנתוני ביצועים פנטסטיים אלו, ב-NVIDIA החליטו לעדות שימוש באחת מפיסות הסיליקון הגדולות ביותר שנראו בשוק השבבים – עם שטח כולל של 815 מילימטרים רבועים (כ-33 אחוזים יותר מה-GP100), שבו תמצאו עד 5,376 יחידות CUDA, עוד 672 ליבות טנזור, 336 יחידות טקסטורה מסוג TMU, זכרון מטמון מרמה L1 של 128 קילו-בייט, 6 מגה-בייט של זכרון מטמון מרמה L2 (שניהם משותפים בין כל יחידות העיבוד לאפקטיביות מירבית) וגם 16 ג׳יגה-בייט של זכרון HBM2 חדשני, שמסודר בארבעה מערומים ומעניק רוחב פס אפקטיבי עצום של 900 ג׳יגה-בייט בשנייה, קרוב לרמה התיאורטית המירבית של טרה-בייט בשנייה שהובטחה לנו במסגרת הטכנולוגיה.

כמעט פטה-FLOP (או PetaFLOP) של ביצועי למידה חישובית במארז שרת אחד בודד

שימוש ביותר מ-21 מיליארד טרנזיסטורים על ליבת ענק אחת (במסגרת יחידת עיבוד בשם Tesla V100, שהיא המוצר המעשי הראשון המבוסס על ה-GV100), בתדר עבודה מירבי די מדהים של 1,455MHz, לקבלת ביצועי הענק פורצי הדרך שהוזכרו קודם זה דבר אחד – אך להשיג זאת תוך כדי שמירה על מעטפת הספק של 300 וואט בלבד, כמו זו של יחידות ה-Tesla P100 משנה שעברה שהתבססו על ליבת ה-GP100, זה משהו שמשאיר אותנו פעורי פה באמת. NVIDIA הצליחה לשפר את יעילות העיבוד שלה בכ-50 אחוזים במסגרת דור ה-Volta, לפחות על הנייר, בהשוואה לדור ה-Pascal, שהיה השיאן המובהק בתחום זה עד כה.

השוואה טכנולוגית מפורטת, מתוך האתר הרשמי של NVIDIA

NVIDIA תציע את ה-Tesla V100 שלה במערכי עיבוד מתקדמים במיוחד לעולם השרתים, המחקר, המדע וה-HPC עם ארבע ושמונה יחידות עיבוד (שיחוברו בממשק NVLink 2.0 עם רוחב פס דו צדדי של 25 ג׳יגה-ביט בשנייה לכל עורק ועורק), ותגי מחיר שיעמדו על סכום בין 70,000 דולר ל-150,000 דולר – כאשר המפתח כאן הוא זמינות לרכישה מוקדמת לחברות ולגופים המעוניינים כבר עתה, והבטחה לזמינות מעשית במהלך הרבעון השלישי של שנת 2017.

יש לכם כמה עשרות אלפי דולרים מיותרים? תוכלו להנות מ-Volta לפני כולם

זמן ה-GeForce

ממש כמו ליבת ה-GP100 לפניה, גם ליבת ה-GV100 אינה רלוונטית לצרכנים הביתיים הפרטיים שמחפשים גיימינג שובר שיאים – אך ברור לגמרי כח ב-NVIDIA יציעו ליבות Volta נוספות בעתיד הלא רחוק שיהיו מיועדות בדיוק לקהל זה, ככל הנראה ללא רוב המעגלים שמעניקים ביצועים מירביים בדיוק 64 ביט כפול, וללא ליבות הטנזור החדשות – אך כן עם זכרונות HBM2 חדשניים (לפחות בחלק מהדגמים) וכן עם עד ל-84 אשכולות עיבוד ועד 5,376 יחידות עיבוד מרכזיות, שהן תוספת של 40 אחוזים מעל למספר מירבי אותו קיבלנו בדור ה-Pascal, מה שעשוי להעיד על מידת השיפור הפוטנציאלי ברמות המחיר השונות, בעולם ורוד ואופטימי במיוחד כמובן.

היתכן שגם השנה נקבל קפיצה דל עשרות אחוזים בביצועים המירביים וביעילות כרטיסי המסך שלנו? הפוטנציאל לכך בהחלט קיים

NVIDIA לא אמרה מילה וחצי מילה בנוגע ל-Volta בהקשרי שוק הגיימינג ומשפחת מוצרי ה-GeForce, אך ראוי לציין כי בשנה שעברה ראינו הכרזה על יחידות ה-Tesla P100 ועל ליבות ה-GP100 בכנס ה-GTC בתחילת חודש אפריל – וחשיפה של כרטיסי ה-GTX 1080 וה-GTX 1070 בתחילת חודש מאי, כלומר חודש אחד בלבד לאחר מכן – ולמרות שאנחנו רצת סקפטיים אודות הסיכויים לראות שחזור מדוייק של מהלך זה השנה (אחרי הכל מוצר הדגל GeForce GTX 1080 Ti הושק עם רעש וצלצולים רק לפני כחודש), יד סיכוי לא רע בכלל שדור חדש של דגמי GeForce עם ארכיטקטורה חדשה לגמרי נמצא במרחק קצר של מספר חודשים מאיתנו.

הכרזה של דגמים ביתיים חדשים בעתיד הקרוב, גם אם זמינות מעשית תגיע רק כמה שבועות או אף חודשים לאחר מכן, תוכל להיות מכת מנע מנצחת של NVIDIA עבור דור ה-Vega המתעכב של AMD, ומהלך שיוודא כי ג׳ן-סון הואנג ואנשיו ממשיכים לשמור על היתרון הטכנולוגי המשמעותי שלהם בכל קטגוריות תחום העיבוד המקבילי. בשורה התחתונה, אם חשבתם שכבר קיבלנו כמעט את כל ההפתעות שהיו לשנת 2017 להעניק לנו, כדאי שתחשבו שוב – המצב רק מתחיל להתחמם כעת.