מה שדורש עבודה מורכבת בפוטושופ עם מסכות ושכבות, נאנו בננה מבצע בשניות עם הוראה פשוטה במילים – ללא צורך בניסיון מקצועי. האם זהו הדור הבא של יכולות הבינה המלאכותית בתחום העיצוב הדיגיטלי?
בחודשים האחרונים, סוד קטן ומפתיע החל לחלחל בקהילות AI ובפורומים מקוונים: שם קוד מוזר, ננו בננה, החל לצוץ כמעט משום מקום, ומבלי שגוגל פרסמה הודעה רשמית, היה ברור שמשהו חדש ומשמעותי מתבשל. הדגם המסתורי, שהתגלה לראשונה בזירה המחתרתית של LMArena, אתר שבו מודלים של בינה מלאכותית מתחרים בעילום שם, הציג יכולות שהשאירו את המודלים הקיימים הרחק מאחור. כעת, גוגל שוברת שתיקה ומאשרת שהכוח החבוי הזה הוא לא אחר מאשר Gemini עם מכחול דיגיטלי.
בננה מסתורית עם ביצועים יוצאי דופן
השמועות החלו לרוץ כשמשתמשים ששיחקו ב"מצב קרב" של LMArena הבחינו שדגם מסוים מתעלה על כל השאר. הוא הצליח לשמור על עקביות פנים של דמויות, הבין הקשרים מורכבים וביצע הוראות עריכה מורכבות בדיוק מפליא. עד מהרה, החלו לצוץ רמזים חמקמקים ברשתות החברתיות: אייקוני בננה שהופיעו בפרומפטים, תמונות של בננות בדגימות פלט ואפילו עובדי גוגל שצייצו אימוג'ים של בננה ללא הסבר. כך נולד השם ננו בננה, שסימן את הדור הבא של עריכת תמונות מבוססת שפה.

היכולות שמבדילות את ננו בננה מהמתחרים
ננו בננה מביאה יכולות מתקדמות שמעלות את הרף בתחום עריכת התמונה. היא אינה מסתפקת רק בתיקונים פשוטים, אלא מאפשרת עריכה עמוקה ואינטואיטיבית המבוססת על שפה, עם דגש על מספר פיצ'רים מרכזיים.
- עריכה באמצעות שפה טבעית: במקום להשתמש בשכבות וכלים בפוטושופ, ננו בננה מאפשרת לבצע עריכות מורכבות באמצעות תיאורים פשוטים. לדוגמה, במקום לסמן עצמים ולמחוק אותם באופן ידני, ניתן פשוט לבקש: "הסר את הרקע והחלף אותו ביער", או "הפוך אותה לחייכנית והוסף תאורה רכה", והמודל מטפל בשאר. היכולת הזו חוסכת זמן רב ומונעת טעויות שקיימות במודלים מתחרים.
- שמירה על זהות הדמות: אחת הבעיות הגדולות ביצירת תמונות מבוססות AI היא חוסר עקביות של הדמויות. ננו בננה מתגברת על הבעיה הזו באופן מרשים. המודל מסוגל לשמור על זהות הדמות גם בעת שינוי רקע, זווית צילום או תאורה. ניתן להעלות תמונה של אדם או חיית מחמד ולשמור על המראה הייחודי שלהם, בעוד המודל משנה את תלבושתם, מיקומם או אפילו את תקופת הזמן. בבדיקות שנעשו במודל, התגלו יכולות מרשימות כמו: שינוי תנוחות צילום של דוגמנית, התאמת עיצוב של פריטי לבוש לגופו של דוגמן, ויישור תמונה באופן דיגיטלי. המודל יכול גם לתקן עיוותי פנים ולטפל בטשטוש או בתמונות מטושטשות.
- מיזוג תמונות וערבוב עיצובים: המודל מאפשר לשלב מספר תמונות ליצירת סצנה חדשה לגמרי. לדוגמה, ניתן להעלות תמונה שלכם ושל כלבכם, ולבקש מהמודל ליצור דיוקן משותף. כמו כן, ניתן להחיל סגנון או מרקם מתמונה אחת על עצם בתמונה אחרת, לדוגמה, להשתמש בדפוס מכנפי פרפר כדי לעצב שמלה.
- שליטה מלאה על תהליך העריכה: ננו בננה תומכת בעריכה רבת-שלבים (Multi-turn editing), המאפשרת לקיים "שיחה" עם המודל ולהמשיך לערוך את התמונה באופן אינטראקטיבי. לדוגמה, אם מתחילים עם תמונה של חדר ריק, ניתן לבקש מהמודל לצבוע את הקירות, ולאחר מכן להוסיף רהיטים.
- מהירות בזמן אמת: בזמן שכלים אחרים דורשים 10-15 שניות ליצירת תמונה, ננו בננה משיבה תוך 1-2 שניות בלבד, לפעמים אפילו מהר יותר. תחושת העבודה בזמן אמת משנה את אופי תהליך היצירה.
- עקביות בין תמונות מרובות: המודל שומר על עקביות סגנונית ונרטיבית במספר תמונות קשורות, מה שמעניק לו יתרון עצום עבור יוצרים של קומיקס, קמפיינים שיווקיים או מצגות, הדורשים עקביות בין תמונה לתמונה.
שמועה שהפכה למציאות: גוגל חושפת את הקלפים
לאחר שבועות של השערות ורמזים, גוגל אישרה באופן רשמי כי ננו בננה הוא דגם עריכת תמונה חדש מבית DeepMind, אשר משולב כעת באפליקציית ג'מיני. החברה הבהירה כי המודל מדורג כמוביל בעולם בתחום עריכת התמונה, ומטרתו לתת למשתמשים שליטה רחבה מתמיד על תמונותיהם. עוד עדכון חשוב הוא שכל התמונות שנוצרות או נערכות באמצעות המודל בג'מיני יכללו סימן מים גלוי וסימן מים דיגיטלי בלתי נראה (SynthID), שנועד לסמן אותן באופן ברור כתמונות שנוצרו על ידי בינה מלאכותית.
איפה אפשר לנסות את זה
ננו בננה זמין באופן רשמי באפליקציית Gemini של גוגל החל מהיום, כחלק מיכולת עריכת התמונות המשודרגת. גוגל הכריזה על האינטגרציה של המודל, שכבר זכה להכרה כמודל עריכת התמונות המדורג ביותר בעולם בתצוגות מוקדמות.
בנוסף לגישה הרשמית דרך Gemini, ניתן להתנסות במודל גם באמצעות LMArena Battle Mode, או באתרים כמו Enhancor שכבר תומכים במודל החדש.
השלכות מעשיות על תעשיית הטכנולוגיה והיצירה
ננו בננה אינה עוד כלי לעריכת תמונות בלבד. מדובר במהפכה פוטנציאלית בתהליכי עבודה שלמים. חברות מסחר אלקטרוני כבר משתמשות בו כדי להתאים תמונות מוצר לווריאציות שונות של צבעים וסגנונות, ובכך חוסכות כסף רב על צילום. חברות גיימינג יוצרות בעזרתו אלפי פורטרטים לדמויות משחק בעלות של 10,000 דולר בלבד, לעומת 150,000 דולר בשיטות המסורתיות.
היכולות המתקדמות של המודל בתחום עריכת טקסט בתמונות, לדוגמה, הן איום פוטנציאלי על מעצבים גרפיים, כיוון שהמודל יכול לשנות טקסט באופן מושלם תוך שניות, מבלי לעוות את הגופן או הפרספקטיבה. המודל אפילו יכול להסיר איפור מפנים ולהחליף מוצרים בתמונות. כל הנתונים הללו, שפורסמו על ידי צוותים שבדקו את המודל בגרסת בטא סגורה, מראים שמדובר בכלי רב עוצמה.
אז האם ננו בננה תהפוך בקרוב את תוכנות כמו פוטושופ להיסטוריה? אולי לא בבת אחת, אך ברור שהיא מציבה אתגר משמעותי בפני תעשיית העריכה הדיגיטלית. המודל אינו רק מייצר תמונות, אלא עורך, משמר, מעצב ומגיב להנחיות אנושיות, והוא מיועד לעבודה ולא למשחק. היכולות המרשימות והאישור הרשמי של גוגל מצביעים על כך שמה שהתחיל כסוד קטן בקהילות רשת, עשוי לשנות את פני עולם העיצוב הדיגיטלי כפי שאנו מכירים אותו.