שימוש חדשני בכלי בדיקה ופיתוח - ראיון עם מנהל קבוצת ולידציה באינטל • HWzone

בראיון זה אנו יושבים אחד על אחד עם שחף קיזלשטיין שהוא סמנכ"ל באינטל ומנהל קבוצת ולידציית המעבדים. הכירו את הצד שסוחב על כתפיו את האחריות לוודא שמעבדים מתוחכמים מגיעים בזמן, באיכות ובביצועים מירביים לשוק

את הראיון עורך ליאור מתתיהו, אחראי ביקורות חומרה ועורך באתר מזה יותר מ-14 שנים.

כאן תמצאו את איזור Alder Lake המיוחד של HWzone אשר כולל ראיונות בלעדיים עם המוחות שמאחורי המעבדים החדשים

ל.מ: תודה על הזמן שהקדשת לראיון. נשמח לדעת מהו תפקידך באינטל ומהו פועלך ביום-יום

ש.ק: אני באינטל כבר 20 שנה, תלוי איך סופרים. באתי והלכתי לאורך השנים ולכן תלוי אם ברוטו או נטו. אני ברקע מהנדס תוכנה. עשיתי תפקידים הנדסיים, ניהלתי יחידות עסקיות ונהלתי חלקים בארץ ובארה"ב. בשנתיים האחרונות אני מוביל את קבוצת ה-Post Silicon Validation של אינטל במוצרי הקצה לקהל הרחב בתור סמנכ"ל באינטל העולמית. מדובר בחלק מארגון גלובאלי אשר אחראי לולידציית כל מעבדי אינטל כאשר תחת אחריותי מעבדי ה-Client, שהם אלו שאתה פוגש במחשבים ניידים ובנייחים. כיום אנחנו בעיקר מתעסקים במעבדי Alder Lake ובנגזרותיה

ל.מ: ציינת את Alder Lake וכיום זו בהחלט גולת הכותרת. הינו לאחרונה עדים להשקה מאוד מוצלחת של סדרות המעבדים לשווקים השונים. נשמח לשמוע על האתגרים שבמהלך הפיתוח וההבאה לשוק של Alder Lake מהזווית שלך. אנחנו יודעים שזה סיליקון ראשון שמובא לשוק השולחני בתהליך יצור חדש, 10 ננומטרים אשר נקרא Intel 7. נשמח לשמוע על כך

ש.ק: בתעשיה שלנו ובטח שבאינטל בתור חברה שמעצבת שוק, השקעה בולידציה ואיכות של מוצר זה עמוק ב-DNA שלנו. אנו עושים את ההשקעה הזאת בכל שכבות הפיתוח. כלומר, קבוצת ה-IP שמפתחת את חלקי המעבד השונים בודקת אותם, לאחר מכן כשעושים אינטגרציה של כל אלה לשבב אחד נכנס הצוות שלי למה שנקרא SoC (ר"ת System on Chip), ולאחר מכן יש ולידציה ברמת הפלטפורמה שבודקים תוכנה יחד עם חומרה, יחד עם BIOS ומשם זה מתגלגל למערכת שלמה ללקוח.

Alder Lake היא דוגמה מעניינת שאיתגרה אותנו ביכולות ובפיצ'רים, ואני חושב שהתוצאות מדברות בעד עצמן. הכנסנו ארכיטקטורה היברידית של ליבות מהירות עם ליבות יעילות יחד עם עבודה צמודה עם מיקרוסופט. פן נוסף הוא אינטנסנביות של כמות המוצרים שאנחנו מוציאים בזמן קצר לשוק. מבחינת פלח שוק Alder Lake מכסה לחלוטין את הכל, מאולטראבוקים ועד למחשבים נייחים מהירים ביותר. כל זה גם הגיע לשוק יחדיו בהפרש של שבועות בודדים, ולא כמה רבעונים כמו בפעמים אחרות.

ל.מ: ידוע לנו שבארכיטקטורת Alder Lake יש מספר יחסית מצומצם של הרכבים שעושה את דרכו אל השווקים השונים ברמת הסיליקון. אנחנו רואים רואים הרכבי ליבות דומים למספר רב של מעבדים בעולם שולחני, ובמיוחד בעולם המובייל. כיצד אתם בצוותי הולידציה מחליטים איזה סיליקון הופך לאיזה מוצר?

ש.ק: בעולם של יצור סיליקון לא כל השבבים נולדו שווים. בהגדרה, ישנו ספקטרום של תכונות של התנהגות סיליקון אותה אנחנו מודדים בפרמטרים כמו באיזו מהירות הטרנזיסטור יכול לשנות מצבים, איזה הספק חשמלי נדרש בשביל פעולות שינוי המצבים הללו וכך אפשר לאפיין את המוצר. ישנה התפלגות של התנהגות החומר – ישנם שבבים יותר בזבזניים בחשמל, יש כאלה יותר חסכוניים בחשמל, יש שבבים איכותיים יותר שהם גם מהירים וגם חסכוניים. זו התנהגות צפויה של החומר שיוצא מקו היצור, בצורה מאוד פשוטה.

כמובן שאני מאוד מפשט לך תיאור, כאשר יש לך אלפי פרמטרים שאתה בודק כמו התנהגות חשמלית לרזולוציה גבוהה, השקעה של אלפי שנות אדם בחקר מודל שחוזה את ההתנהגות הזאת, ואתה ממשיך לבצע תיקונים ושיפורים.

בסופו של דבר ישנה מטריצה מאוד מורכבת שממנה אנו משתדלים לבחור את החומר האופטימלי לכל פלח שוק שאנחנו רוצים לשרת. יש לך מוצרים שעליהם אתה מוכן לשלם עליהם מחיר יותר גבוה כי אתה רוצה את הביצועים הכי טובים. יש לך לפטופים שאתה רוצה להתפשר בהם על ביצועים כי אתה רוצה חיי סוללה ארוכים. לכל פלח שוק במטריצה הזאת יש דגש אחר לפי מה שהשוק מכתיב ואנחנו מפתחים הרבה כלים ויכולת לאפיין ברמת השבב הבודד ואנו יודעים לשבץ אותו בדיוק לסגמנט אליו הוא מתאים. זו אחת הסיבות שיש לאינטל פילוח שוק כה עשיר. אתה מכיר את זה דרך Core i5, Core i7, Core i9 אבל כמובן שבתוך זה יש המון פילוח של מעטפות חום, של תדרי פעולה וכו'.

שאלת על אתגרים ועל מה מיוחד בעבודה שלנו וישנו דבר נוסף שאשמח לספר לך. תחשוב שבגדול כשאתה רוצה לבדוק מוצר כמו מעבד של אינטל, יש לך כמה דומיינים שבהם אתה בודק את עצמך.

האחד הוא Functional Validation, בדיקות לוגיות. אתה קורא את המפרט הטכני של המוצר ולאחר מכן אתה בודק אם הוא עושה את כל מה שמצויין במפרט הזה. אם מצאת התנהגות לא צפויה אז יש באג ובאג לוגי כזה אתה מנסה לשחזר ויש לך יכולת לעצור את השעון בשבב ולעלות עליו.

בגלל שהבגדרה התנהגות של שבב סיליקון אינו קבועה, ותוסיף לזה תלות במהירות התפשטות של אותות לפי טמפרטורת הפעולה ברגע נתון, או לפי עוצמת המתח שאתה מזריק לשבב וקיבלת תופעה שנקראת מארג'ינליות (Marginality). כשאתה נמצא בנקודת זמן מסוימת, אות יכול לרוץ מהר יותר או לאט יותר ופתאום הטרנזיסטור במעבד לא משנה מצב בזמן ונוצר כשל התנהגותי, כשל פונקציונלי. אותו הכשל לא בהכרח קורה בגלל עיצוב שגוי של הארכיטקטורה, אלא פשוט בשל השפעות על האותות האנלוגיים שרצים בו. זה דבר שהרבה יותר מסובך ומאתגר לתפוס. בשבב אחד זה יכול לעבוד, ובשבב אחר להכשל.

זה חלק מהתהליך שבו מחלקת הולידציה נותנת את האישור שמעבד מוכן ליצור המוני בדרך ללקוח.

ל.מ: אחזור איתך לחלק הטכני שקשור להוולדות השבבים עצמם. שבב חדש יורד מהוייפר, מהמכונה ליצור שבבים – היכן פיסת הסיליקון הזאת קמה לחיים? כיצד אנחנו מקבלים את הרשמים הראשוניים של איכותו ויכולתו של שבב כזה?

ש.ק: יש סט מסוים של בדיקות סופר בסיסיות שאתה מזריק לתוך השבב, אפילו כמו שאתר אומר ישר מהוייפר שאותו עושים עוד המפעל עם טסטרים בשביל לראות שדברים בסיסיים כמו מתח, חשמל מגיע לכל האיזורים בשבב, שאין לנו שבבים מתים.

האירוע הבאמת מרגש ומשמעותי זה מה שנקרא Power on. זה במיוחד מרגש כשאתה מקבל את הסיליקון פעם ראשונה. עבדת שנתיים בעולם של סימולציות ומודלים, שלחת את המסכות למפעל היצור וחיכית רבעון, כמו שאמרת הוייפר סיים את התהליך. חתכו, שמו בתוך Package (הטמעה בתוך חבילת מעבד) והוא הגיע למעבדה.

פה ישנה אנקדותה מעניינת שלפני הקורונה הינו מטיסים עשרות מהנדסים מכל הדיסיפלינות מגיעים לחדר ה-Power on ובמשך כמה ימים יוצא עשן לבן, אף אחד לא חוזר לשגרת עבודתו עד שהשבב לא מדפיס לנו "Hello World" (מסר ראשון מפורסם בו משתמשים לכל פיסת טכנולוגיה בשביל להדגם שהיא "קמה לחיים").

בקורונה למדנו לעשות את האירוע הזה בשלט רחוק. כמובן שצריך כמות מסוימת של מהנדסים באותה הסביבה בצורה פיזית על מנת לבצע אתחול מחדש אם צריך וכו'. פיתחנו את היכולות לתת לכל המהנדסים המומחים הלו יכולת גישה מרחוק, לא משנה היכן הם נמצאים.

לגבי בדיקות השבב לאחר שיורד מפס היצור – אנחנו משתילים אי אלו חישנים ונקודות מדידה, משתמשים בטכניקות הרצה למודולים ולרכיבים השונים של השבב בשביל לוודא שהכל תקין לפי תוכנות שבנינו לכך. אתה מתקדם משלב לשלב עד שאתה מגיע לאתחול מלא. זה מתחיל מלהעיר את השבב לחיים ומשם מתקדם לאיזורים כמו זיכרון ה-RAM שנמצא מחוץ לשבב. אחרי שכל הדברים עובדים אתה יכול להריץ מערכת הפעלה ומראה לכולם שהשבב חי ונושם. זה תהליך שבדרך כלל לוקח כמה ימים. אם אתה ברמת מוכנות מעולה, זה יכול לקחת גם כמה שעות.

ל.מ: האם אתה יכול לתת לנו דוגמה לשינוי משמעותי בתהליך הולידציה בין מעבדי Alder Lake למעבדים מדורות קודמים כמו עם Sandy Bridge או Skylake למשל?

ש.ק: אתן לך דוגמה של דבר מאוד משמעותי – שימוש בטכניקות של AI ולמידת מכונה בעולם הולידציה. זה דבר שבקנה המידה כמו שנעשה עם Alder Lake בפירוש לא היה בדורות שאתה ציינת. היום הוא חלק אינטגרלי מאוד חשוב בעבודה שלנו.

יש תחום שלא דיברנו עליו בנושא הזה – Electrical Validation. בתחום זה אנחנו מוודאים שהמוצר שלנו מתנהג במפרט החשמלי. אלו בדיקות שעושים במיוחד על הממשקים האנלוגיים של נקודות החיבור החיצוניות של השבב. כשאתה רוצה להתחבר לזיכרון או למכשיר ב-PCI-Express, אתה צריך לראות שאתה מממש כמו שצריך את המפרט החשמלי כי אתה מתחבר כאן לרכיב צד-שלישי.

במודולים כמו בקר הזיכרון במעבד, שיש לו תהליך אימון אנלוגי מאוד מסובך עם מאות אם לא אלפי פרמטרים במעגל האנלוגי שמכייל את המעגלים, ישנה שיטה מסורתית ידנית כדי לנסות סט מסוים של פרמטרים ולראות כיצד זה עובד, ולתקן כשצריך. מצד שני, אפשר להשתמש בטכניקות של AI, להביט במסדי נתונים על עבודה שנעשתה בעבר, או עם שבבים דומים, להפעיל אלגוריתם שיבחר עבורך פרמטרים אופטימליים וכך לקצר את הליך הולידציה בסדר גודל רציני.

באמצעות הרצה של מאות ולעיתים אלפי מערכות בדיקה, אנחנו יכולים לזהות התנהגות שהיא א-נורמלית. האלגוריתם עובד על המערכות הללו וכאשר ישנה תקלה המערכת מזהה את הבאג ומאפשרת לנו לדבג אותו.

ל.מ: אומרים שבעולם הולידציה וה-QA לעיתים המהנדסים הם אלו שהולכים כתף אל כתף עם מהנדסי הארכיטקטורה ואלו שאחראיים על עיצוב השבב כשלעצמו, כמה היית אומר שזה נכון?

ש.ק: תחשוב על זה ככה, שבב של אינטל בנוי ממליארדי טרנזיסטורים. אם אתה מסתכל על זה מהצד ההנדסי, יש מעל 100 בלוקים פונקציונליים באותו המעבד ועובדים עליו אלפי מהנדסים במשך שנתיים עד שאתה רואה סיליקון. תחשוב, יש מעט מאוד אנשים שמסוגלים להביא את הכל ביחד לעבוד. המהנדס הקלאסי מצד עיצוב הבלוק מכיר את הבלוק שלו. הוא יודע מה נכנס ומה יוצא מאותה מערכת שהוא מעצב למעבד. הוא לא בהכרח יודע איך כל ה-SoC אמור להתנהג וכשהוא לא מתנהג כמו שצריך לשים את האצבע על הבעיה.

קבוצות כמו הקבוצה שאני מוביל הם לחלוטין שחקן מפתח, ואני אגיד עם כל הצניעות שבדבר, בהרבה פעמים מבינים יותר טוב מהחבר'ה ב-Design כיצד כל הדברים צריכים לעבוד יחד. התלויות בין עשרות ומאות הבלוקים השונים הם שם המשחק בעולם ה-SoC.

דוגמה קלאסית היא איפטום (מהמילה Optimization) של ביצועים. כשאתה רוצה לאפטם ביצועים ולמדוד עומסים, וראיתי שכתבת הרבה כתבות שכוללות מבחני ביצועים. כל מבחן ביצועים שכזה בשביל לאפטם אותו יש לך לעיתים מאות נקודות תלות שיכולות להשפיע על הציון שאתה מקבל בסוף. צריך להבין איפה נמצא צוואר הבקבוק – אולי בזיכרון, בליבות העיבוד, אולי זיכרון המטמון, אולי בתקשורת מול כרטיס המסך. מי מחכה למה? האם אתה מוגבל בכח או בתדר? יש המון פרמטרים שמשפיעים על הציונים בקצה. בדיוק על האופטימיזציות האלה עובדים ב-Post Silicon Validation.

תחשוב על האתגר – אתה רוצה לפתח בקר PCI-Express לתמוך בדור 5.0 במעבד שלך, אבל מהצד השני אין לך כרטיס שיכול להתממשק אליו ולתמוך בטכנולוגיה הזאת, לא בזמן הפיתוח שנתיים לפני שזה נמצא על המדפים. לכן, אנחנו צריכים לפתח כלים וחומרה שמתחברת אל המעבד ומאפשרת לממש את רוחב הפס החדש הזה. אנחנו השתמשנו בכרטיס FPGA בשביל לעבוד ולוודא שהפרוטוקול עובד כראוי.

ל.מ: דוגמה נוספת אולי תהיה גם תמיכה ב-DDR5. פה אנחנו יודעים שלא היה מוצר זמין בשוק ושלמעשה פלטפורמת Alder Lake הגיעה אל השוק יחד עם DDR5

ש.ק: נכון מאוד, וכדי להבהיר מעבדי Alder Lake לא תומכים רק ב-DDR5 אלא גם ב-DDR4. בין אם זה משיקולי זמינות או מחיר, דאגנו לתמיכה מלאה אחורנית גם בזיכרון DDR4 הותיק שקיים כיום בשוק.

ל.מ: ישנן מגוון חברות, בעיקר מאיזור טאיוואן אותן אנחנו מכירים טוב דוגמת ASUS, GIGABYTE ו-MSI אשר צריכות לפתח לוחות אם לאותם מעבדים חדשים. נשמח לקבל רקע לתהליך העבודה עם אותן שותפות של אינטל בהטמעת המוצרים בשוק בעת ההשקה. כיצד מתבצע החיבור בין אינטל לבין אותן היצרניות בשביל לוודא שהכל מנגן בהרמוניה ביום שהמוצרים הופכים לזמינים בשוק?

ש.ק: אני את העולם הזה מכיר טוב כי בתפקידים קודמים עבדתי בטאיוואן. אינטל משקיעה המון אנרגיה ומשאבים לא רק בלפתח סיליקון אלא בלפתח ממש עיצוב רפרנס, והנחיות פלטפורמה וכל מה שצריך מסביב. אנו מגישים לחברות הללו את כל המסמכים ומראים להן שאם יבנו את הלוחות לפי ההוראות וההגדרות, אינטל כבר עשתה ולידציה מאוד אינטנסיבית על החומרה הזאת.

מהרגע שיצרן מקבל מאיתנו סיליקון השאיפה היא שמוצר המשתמש בו יגיע לשוק כמה שיותר מהר. אנו משתפים עם הלקוחות שלנו סיליקונים מוקדמים. תחשוב שמהרגע שיש לנו עיצוב סופי לסיליקון יכול לקחת בין שנה לשנתיים ולכן יש הרבה גרסאות של סיליקון בדרך. דבר אחד שעושים זה שמשתפים את הלקוח עם סאמפלים מוקדמים של סיליקון בשביל לקבל פידבק וגם להתגלח ולנקות בעיות שיש אצלו בפלטפורמה.

אנחנו משתפים תוצאות בדיקה, מתודות, ביצועים בשביל לראות שהם מקבלים את הביצועים שאנחנו רוצים שיקבלו במוצר. בסופו של דבר זה גם האינטרס שלנו שהמוצרים שמשתמשים במעבדי אינטל יהיו איכותיים ככל האפשר ויתאימו להגדרות וטכנולוגיות שלנו.

אנחנו לא יכולים לעבוד עם כל יצרן בעולם שרוצה לעשות שימוש במעבדי אינטל אך כן בוחרים בין החברות הגדולות ובין הפלטפורמות החשובות ביותר, אחרת נטבע בעבודה. יצרניות מסוגלות לאחר פיתוח כללי בשיתוף איתנו להבין את הפלטפורמה וליצור מוצרים נוספים, וכך גם יצרניות אחרות קטנות יותר בשוק.

ל.מ: כל החומרה מוכנה ועובדת לוגית בצורה תקינה ואנחנו מתקרבים להשקה – כיצד באינטל, לפחות מהזווית שלך ניגשים להחלטה איזה מעבד יקבל אילו תדרים, מתחי עבודה ומאפיינים טכניים, ואיזה מעבד יחשב לחלק יותר ויובא ללקוחות במחירים מוזלים ותדרים נמוכים יותר?

ש.ק: אכן יש תלויות בתהליך הזה. בסוף, בשביל לבנות את מטריצת המוצרים המורכבת של אינטל צריך לאזן בין כמה גורמים כמו מה שקבוצות המרקטינג אומרות שהשוק רוצה, ואם לתת דוגמה – "אני רוצה 10 אחוז מהחומר שמספק מקסימום ביצועים, ואחר כך אני רוצה כך וכך אחוז מהחומר ל-Core i5 וכו'". כאן מדובר בעולם נטול שיקולים טכניים, מצב אופטימלי אם כל החומרה הייתה מושלמת באיכותה.

מהצד השני יש לך את "מה החומר מסוגל לעשות". מריצים כמות מכובדת של סאמפלי הנדסה בשלב מתקדם לקראת יצור המוני, ואתה בונה מטריצה שמוסרת לך מידע לגבי חלוקת פוטנציאל המעבדים לעבוד בהגדרות כאלה ואחרות. ממש היסטוגרמה של התנהגות החומר.

ואז אתה יכול להתחיל לשלב בין דרישות השוק לבין היכולת של הסיליקון. יושבים ביחד אנשים מקבוצת הולידציה, היצור והעסקי ומחליטים כיצד לבנות את היררכיית מוצרי אינטל. בהתאם להתפלגות יכולות התדרים וההספקים נוצרים המוצרים החדשים. דיון רדימה ואחורה נעשה בתקופה הזאת ולפי יכולת הולידציה נקבעים נתחי השוק והמיתוג אליהם מעבדים מיועדים.

ל.מ: לא מזמן בחנו את יכולות Core i9 12900K וראינו שעל אף שמעטפת החום שלו בתוספת טורבו יושבת על 241 וואט, מצאנו שגם ב-200 וואט הוא מביא את מלוא הביצועים, לפחות עם הדגימה שלנו. אתה יכול לשפוך מעט אור על אותו המרווח, למה הוא נוצר ואת מה הוא משרת?

ש.ק: יש שונות בהגדרה של יכולות הסיליקון כאשר הן יוצאות מפס היצור, אפילו בשביל אותו המעבד ואותו הדגם בדיוק. כשאינטל מבטיחה ביצועים עבור דגם ספציפי, היא צריכה לוודא שכמות מספקת של מעבדים על טווח מכובד של יכולות סיליקון יכול לעבוד במפרט הטכני שנקבע עבור הדגם הזה. יכול להיות שאתה ספציפית תקבל מעבד שמסוגל לעבוד בהספק נמוך משמעותית ולהביא ביצועים זהים, ויכול להיות במעבד אחר שלא יהיה לך את החופש הזה שכן הוא נמצא במקום אחר בספקטרום הולידציה עבור הדגם.

ל.מ: אשמח לאינפוט ממך, לעובדות מעניינות, אולי קצת מידע לדור הצעיר שמתעניין במציאת קריירה בתחום הזה. אילו כישורים דרושים כדי לעבוד ב-Post Silicon Validation? לגבי השכלה ותחומי ידע?

ש.ק: חשוב לנו מאוד להדגיש שכח האדם שאנחנו עובדים איתו הם מהנדסים לכל עניין ודבר. מהנדסי תוכנה, מהנדסי חשמל, מהנדסי מחשבים. מהבחינה הזאת אנחנו בהחלט עובדים כתף אל כתף עם קבוצת ה-Design. הקבוצה שלנו היא זאת שמחיה את הסיליקון, מוודאת שחלקיו עובדים וגם מבצעת אופטימיזציה למעבדים.

בלי השלב הזה של ה-Post Silicon, בפירוש אין לך יצור המוני של מעבדים. המעבר מתכנון של שבב במודל Pre Silicon למעבר ליצור של עשרות מליוני מעבדים זה מעבר שמעט מאוד חברות מסוגלות לעשות אותו. אתה צריך בשבילו טופ טאלנט שמבין בקרביים הכי אינטימיים של התנהגות המוצר. אני לא רוצה להתחמק מהדעות הקדומות שולידציה הולך אחרי ה-Design ומוצא לו באגים.

הרמה הטכנית שאנשי הולידציה שלנו נדרשים להגיע אליו היא ממש כתף אל כתף מול מהנדסי הארכיטקטורה והתכנון ולא פחות מכך, גם ברמת החשיבות וההשקעה של אינטל. אנחנו בפירוש מאפשרים לכל תהליך הפיתוח לעבוד כמו שהוא עובד, ובכמויות האדירות שאינטל יכולה לייצר. לאחרונה הרמנו בירושלים מרכז ולידציה מאוד מתקדם לבדיקת אלפי מערכות לשבבים לפני שהם מגיעים לשלב של יצור המוני. דבר כזה עוד לא היה, וקיים בכמויות קטנות בשוק הסיליקון.