מודלים של בינה מלאכותית תוכננו ללא בקרות בטיחות מספקת או שונו באמצעות פריצות, כך חושף מחקר חדש שנערך באוניברסיטת בן גוריון בנגב. הסכנה: מידע מסוכן זמין לשימוש. " האיום מוחשי ומדאיג", אומרים החוקרים.
צ'אטבוטים מודרניים כמו ChatGPT, Claude ,Gemini ואחרים עובדים על בסיס מודלים גדולים של שפה (LLMs) שהוכשרו על כמויות עצומות של תוכן אינטרנטי. למרות אמצעי הגנה כמו סינון מידע זדוני ומדיניות אבטחה מובנית, הבינה המלאכותית זוכרת באותה מידה מידע לא חוקי.

קבוצת מחקר בהובלת ד"ר מיכאל פייר ופרופ' ליאור רוקח מהמחלקה להנדסת מערכות תוכנה מידע באוניברסיטת בן-גוריון בנגב, ערכה ניסוי במהלכו הם יצרו פריצה אוניברסלית למודלים הפופולריים, שם שאלו ואף קיבלו מידע לא חוקי על גניבה, סמים, סחר במידע פנים, ופריצות למחשבים. ב-100% מהמקרים, לאחר הפריצה, המודלים העניקו תשובות מסוכנות באופן עקבי. "מכל המודלים שבדקנו קיבלנו מידע לא חוקי ולא אתי המאופיין בזמינות וידע חסר תקדים", מסביר ד"ר פייר. "כיום כל מי שיש לו מחשב נייד ואף פלאפון יכול לגשת לכלים אלה."
פריצות נוטות להשתמש בהנחיות מוקפדות כדי להערים על צ'אטבוטים לייצר תגובות שלרוב אסורות. הם פועלים על ידי ניצול המתח בין המטרה העיקרית של התוכנית – לפעול לפי הוראות המשתמש, לבין המטרה המשנית שלה – להימנע מיצירת תשובות מזיקות, מוטות, לא אתיות או בלתי חוקיות. ההנחיות נוטות ליצור תרחישים שבהם הצ'אטבוט מעניק עדיפות לעזרה על פני אילוצי הבטיחות שלה.
החוקרים שמים דגש ומתריעים מפני סוג מיוחד של בינה מלאכותית הנקרא "מודלים של שפה אפלה". למודלים אלה אין אתיקה מובנית מלכתחילה, או שהם נפרצו בכוונה. חלקם כבר מפורסמים בגלוי ברשת האפלה ככלים לפשעי סייבר, הונאה והתקפות על תשתיות. המחקר קבע שחברות טכנולוגיה צריכות לסנן נתונים בהקפדה יתרה, להוסיף הגנות חזקות יותר כדי לחסום שאילתות ותגובות מסוכנות ולפתח טכניקות "אי-למידה ממכונה", כך שצ'אטבוטים יוכלו 'לשכוח' כל מידע לא חוקי שהם סופגים. ההתייחסות למידע אפל זה זהה להגדרה של "סיכוני אבטחה חמורים", בדומה לנשק וחומרי נפץ ללא רישיון, כאשר הספקים נושאים באחריות.
" בהתבסס על ההתקדמות האחרונה ביכולות ההסקה (Reasoning) של המודלים, נראה כי מערכות אלו מסוגלות כיום "לחבר את הנקודות" וליצור תכנים מזיקים חדשים באמצעות שילוב של מקטעי ידע שכל אחד מהם בעצמו אינו מזיק. הסיכון מתחדד עוד יותר עם הופעתם של סוכנים חכמים, שכן היכולת שלהם להאציל סמכויות ולפעול בטווח רחב יותר של פעולות מקשה באופן משמעותי על פיתוח מנגנוני הגנה אפקטיביים. במקרים מסוימים, סוכנים כאלו אף עלולים להפוך ל-"שותפים לפשע" – מבלי להיות מודעים לכך", ציין פרופ' רוקח.

קבוצת המחקר פנתה לחברות בינה מלאכותית מרכזיות ודיווחו על הפגיעות שזוהתה. עם זאת, תגובתם הייתה מאכזבת. חברה מרכזית אחת לא הגיבה, בעוד שאחרות אמרו שסוג זה של פריצה אינו מוגדר כבאג קריטי במערכת. כיום הרב המוחלט של החברות מתייחס לבעיות אלו כדבר מינורי שלא כמו בעיות אחרות של פגיעה בפרטיות המשתמשים או באג בתוכנה.
המחקר מדגיש את הצורך בחיזוק ההגנה מפני בקשות זדוניות, פיתוח טכנולוגיות 'ביטול למידת מכונה' כך שבינה מלאכותית תוכל לשכוח מידע לא חוקי ויצירת סטנדרטים ברורים של בקרה וביקורת עצמאית של מודלים. "מה שמייחד את האיום הזה מסיכונים טכנולוגיים קודמים הוא השילוב חסר התקדים של נגישות, יכולת הרחבה ויכולת הסתגלות", מזהיר פרופ' רוקח. "בינה מלאכותית אפלה יכולה להיות מסוכנת יותר מכלי נשק לא חוקיים, ויש להסדיר את פיתוחם בהתאם ובהקדם".