NVIDIA השיקה את הדגם הראשון בדור החדש והמדובר שלה. בואו לשמוע מה חדש, מדוע והאם יש סיבה להתחיל להתרגש
לאחר תקופת המתנה לא קצרה ומספר רמיזות והתבטאויות יומרניות מפי אנשיה של NVIDIA, הושק לו בחגיגיות כרטיס ה-GeForce GTX 680, המתבסס על ליבת ה-GK104 שהיא הנציגה הנייחת הראשונה לארכיטקטורת ה-Kepler החדשה והמשודרגת, ואנחנו כאן כדי להסביר לכם על מה בדיוק כל המהומה.
ארכיטקטורת הדור הקודם של NVIDIA, המכונה Fermi והיוותה את הבסיס לכרטיסי המסך מסדרות ה-GeForce GTX 4XX וה-GeForce GTX 5XX, נתקלה בקשיים ומהמורות רבות במהלך חייה שודאי עלו למהנדסיה של החברה בהרבה לילות ללא שינה. עם זאת, בשורה התחתונה נראה כי NVIDIA הצליחה במשימתה, והציגה טכנולוגיה שאיפשרה לה לכבוש את פסגת הביצועים בשוק הגיימינג (לפחות בכל הנוגע לדגמים חד ליבתיים) וגם להציע ביצועים משופרים לעין ערוך במסגרת עיבוד כללי ועיבוד שמשתף את הליבה הגרפית ואל ליבות העיבוד הכלליות (compute/GPGPU).
מצד שני, הישגים אלו הגיעו עם ליבות גרפיות גדולות ובזבזניות יחסית, שאיפשרו למתחרה AMD להציע תחרות קשה עם ליבות יעילות וחסכוניות יותר במחירים תחרותיים. לא מפתיע, אם כך, שאחת מהדגשים המרכזיים של NVIDIA עבור ארכיטקטורת ה-Kepler החדשה היה בנושא היעילות – בחברה ביקשו לבנות את הליבה הגרפית העוצמתית ביותר, אך גם היעילה ביותר בשוק.
ליבת ה-GK104 – כמה טוב שבאת |
באופן כללי, ניתן לכתוב כי אין הבדל משמעותי בין ארכיטקטורת ה-Fermi לארכיטקטורת ה-Kepler (זאת בניגוד למעבר של AMD מגישות ה-VLIW5/VLIW4 לארכיטקטורת ה-GCN בדור החדש) אך מקצה השדרוגים שיזמה NVIDIA בכל זאת מציע כמה וכמה שינויים מהותיים.
השינוי המרכזי בליבות הגרפיות החדשות, ממנו נגזרים מרבית השינויים האחרים, הוא ההתפטרות מן התדרים המומהרים עבור המצללים (Hot Clocks) – מעתה המצללים לא פועלים בתדר כפול משאר רכיבי הליבה, אלא בתדר זהה להם. בשל כך, נדרשה הכפלה במספר ליבות ה-CUDA (הן המצללים המאוחדים) רק בכדי להציע רמת ביצועים תיאורטית זהה לזו שהעניק התדר המוגבר לפני כן, כאשר תהליך הייצור החדש ב-28 ננומטר איפשר ל-NVIDIA לדחוס עוד יותר רכיבים אל הליבה.
טבלה שמסכמת את חלק מההבדלים בין ליבת ה-GK104 וליבת ה-GF110 |
התוצאה? ליבת GK104 בקונפיגורציה מלאה מכילה 4 יחידות GPC (ר"ת Graphics Processing Clusters) הכוללות זוג יחידות SMX כל אחד, וכל זה מתפרש ל-1,536 ליבות CUDA, פי 4 מליבת ה-GF114 ופי 3 מליבת ה-GF110, בנוסף ללא פחות מ-256 יחידות SFU (ר"ת Special Function Unit, פי 4 ממספרן בליבת ה-GF110 ופי 8 ממספרן בליבת ה-GF114 אותה מיועדת ה-GK104 להחליף, לכאורה), 128 יחידות טקסטורה ועוד, כשכל אלו פועלים בתדר בסיסי של 1,006MHz שגבוה ב-15 עד 30 אחוז מאלו שראינו בדור הקודם ותורם את חלקו לקלחת.
בקר הזכרון ב-GK104 התכווץ אמנם לכדי 256 ביט לעומת 384 ביט ב-GF110, אך עבר גם הוא שיפור לא קטן ופועל עתה בתדר אפקטיבי של 6GHz (לעומת כ-4GHz בדור הקודם) שמעניק לו תפוקה זהה של כ-192GBps תוך חסכון בשטח פנים על גבי השבב.
יחידות SM בדור ה-Fermi לעומת יחידת SMX בדור ה-Kepler (משמאל) |
אלמנט נוסף שעבר שינוי ב-GK104 נוגע לאופן ולביצועי העיבוד תחת דיוק כפול של 64 ביט (Double Precision). בדור ה-Fermi, מטעמי חסכנות רק חלק מליבות ה-CUDA בכל יחידת SM הכילו יכולות עיבוד בדיוק כפול, וביחס של רבע לעומת ביצועי העיבוד בדיוק יחיד. בדור ה-Kepler נראה כי גם בתחום זה היעילות והחסכנות מכתיבה את חוקי המשחק – אף אחד מליבות ה-CUDA הרגילות לא מסוגלת לבצע חישובי DP, אך כל יחידת SMX מכילה 8 ליבות CUDA נוספות (סה"כ 64 ליבות ב-GK104) אשר ייעודיות לביצוע חישובי דיוק כפול, ואף עושות זאת ביחס של 1 ל-1 לעומת ביצועי הדיוק היחיד. בסופו של דבר, ביצועי ה-DP של ליבת ה-GK104 לא צפויים להרקיע שחקים, אך מקדמים את שאיפתה של NVIDIA לעבודה יעילה, כאשר לא מן הנמנע שבדגמים המקצועיים מסדרות ה-Quadro וה-Tesla נראה מספר גדול הרבה יותר של ליבות CUDA כאלו, אשר יוכלו להעניק ביצועי DP טובים מאי פעם.
לא כל האלמנטים בליבת ה-Kepler הוכפלו במספרם לעומת הדור הקודם (יחידות ה-ROP, למשל), אך במבט כללי עושה רושם כי ב-NVIDIA בחרו שלא לבצע הכפלה "פשוטה" של כל היחידות אשר מרכיבות את הליבה הגרפית, אלא פירקו את המערך לגורמיו והחליטו מיהם האלמנטים שהגדלת מספרם תעניק את התועלת הגדולה ביותר, תוך ייעול מירבי של צריכת ההספק הכללית.
חדי ההבחנה ודאי תוהים כיצד תיתכן הכפלה של פי 3 ואף פי 4 במספר יחידות העיבוד שבליבה הגרפית לצד חסכון בשטח הפנים של השבב, כשמזעור תהליך הייצור מ-40 ננומטר ל-28 ננומטר מאפשר את דחיסתם של פי 2 טרנזיסטורים "בלבד" באותו השטח. הקסם מגיע ממספר החלטות עיצוביות שונות שאת חלקן פירטנו בפסקאות הקודמות, אך המרכזית שבהן נוגעת למגנון התזמון (scheduling) שחוזר להיות מבוסס תוכנה בדור ה-Kepler לעומת ביסוס חומרתי בדור ה-Fermi.
מדובר בבחירה בעלת השפעה שלילית על הביצועים, בייחוד במצבי עיבוד כללי, אך ב-NVIDIA טוענים כי היתרונות בתחום צריכת האנרגיה והחסכון בשטח על גבי השבב מצדיקים בהחלט את ההחלטה.
כל הבחירות אותן הבאנו בפניכם במאמר זה העניקו לליבת ה-GK104 שטח פנים של 294 מילימטר רבוע לתוכה נדחסים כ-3.5 מיליארד טרנזיסטורים, אשר מעניקים ביצועים תיאורטיים מירביים של כ-3.1TFLOPS, תחת מעטפת תרמית של כ-195 וואט. כלומר, לא רק שהליבה קטנה בכ-75 אחוז מליבת ה-GF110 וקטנה אף מליבת ה-GF114, היא גם מציעה יחס ביצועים/צריכת הספק אשר גבוה כמעט פי 3 מאלו שאפיינו את דגמי ארכיטקטורת ה-Fermi.
אין ספק שב-NVIDIA התעלו על עצמם בכל הנוגע לצריכת הספק ויעילות עם ליבת ה-GK104, אך האם זה יספיק בכדי להתחרות מול ליבת ה-Tahiti שבכרטיסי דור ה-Southern Islands של AMD? בקרוב תגלו.