מעבדת EXO הדגימה כיצד מודל שפה מתקדם יכול לפעול על חומרה בת 26 שנה, במהלך שמדגיש את החזון שלהם להנגשת בינה מלאכותית לכל
מה משותף למחשב Windows 98 ישן ולמודל בינה מלאכותית מתקדם? יותר ממה שחשבתם. מעבדת EXO Labs הדגימה לאחרונה הישג מרשים במסגרת סדרת "12 ימי EXO": הפעלת מודל שפה גדול (LLM) מסוג Llama 2 על מחשב Pentium II בן 26 שנה. התוצאה המפתיעה? המערכת העתיקה הצליחה להריץ מודל בסיסי ולייצר טקסט במהירות מרשימה.
מסע אל העבר הטכנולוגי
המחשב שנבחר למשימה הוא Elonex עם מעבד Pentium II במהירות 350MHz וזיכרון RAM של 128MB בלבד. הצוות רכש את המחשב באיביי, אך נתקל באתגרים רבים בדרך להפעלת המודל. העברת הקבצים למחשב הישן הצריכה שימוש בפרוטוקול FTP דרך חיבור הרשת המיושן של המכשיר.
האתגר המשמעותי יותר היה קומפילציה של קוד מודרני למערכת Windows 98. הפתרון נמצא בדמות llama2.c, קוד פתוח שפותח על ידי אנדרי קרפתי – לשעבר מנהל הבינה המלאכותית בטסלה וחבר מייסד ב-OpenAI – שכתב "700 שורות של קוד C טהור שמאפשרות להריץ מודלים בארכיטקטורת Llama 2", כפי שמתאר אותו אלכס צ'ימה מ-EXO Labs. באמצעות סביבת הפיתוח Borland C++ 5.02 ומספר התאמות קטנות, הצליח הצוות ליצור קובץ הרצה שמתאים למערכת ההפעלה הישנה. הקוד הסופי זמין כעת ב-GitHub.
ביצועים מפתיעים
התוצאות מרשימות במיוחד בהתחשב במגבלות החומרה: מודל קטן של 260 אלף פרמטרים הצליח לייצר 35.9 טוקנים לשנייה. מודל גדול יותר של 15 מיליון פרמטרים הגיע למהירות של טוקן אחד בשנייה, בעוד שמודל Llama 3.2 בגודל מיליארד פרמטרים פעל בקצב איטי של 0.0093 טוקנים לשנייה.
מעבר למשחק טכני
אך מאחורי ההדגמה המרשימה עומד חזון גדול יותר. EXO Labs, שהוקמה על ידי צוות חוקרים ומהנדסים מאוניברסיטת אוקספורד, יצאה מהסתר בספטמבר האחרון במטרה "להפוך את הגישה לבינה מלאכותית לדמוקרטית יותר". החברה מתריעה מפני הסכנות שבריכוז כוח הבינה המלאכותית בידי תאגידי ענק בודדים.
העתיד: BitNet
הפתרון שEXO מציעה הוא BitNet – ארכיטקטורה חדשנית המשתמשת במשקולות טרנריות (מערכת שבה כל ערך יכול להיות רק אחד משלושה מצבים אפשריים, במקום מספרים מדויקים). פישוט זה מאפשר להקטין משמעותית את דרישות הזיכרון והעיבוד של המודל. היתרון המשמעותי: מודל של 7 מיליארד פרמטרים דורש רק 1.38GB של אחסון. יתרה מכך, BitNet מתוכנן לעבוד בעיקר על מעבד (CPU), מה שמייתר את הצורך בכרטיסי מסך (GPU) יקרים.
"המודלים שלנו יעילים ב-50% יותר ממודלים מסורתיים", מסבירים ב-EXO. "אפשר להפעיל מודל של 100 מיליארד פרמטרים על מעבד בודד במהירות קריאה אנושית של 5-7 טוקנים לשנייה".
החברה מזמינה מפתחים ומהנדסים להצטרף למאמץ, ומפעילה ערוץ Discord מיוחד בשם Retro לדיונים על הרצת מודלי בינה מלאכותית על חומרה ישנה, כולל מחשבי Mac ישנים, קונסולות Gameboy, ומחשבי Raspberry Pi.