ענקית הטכנולוגיה מציגה את Veo 3, מודל יצירת וידאו פוטו-ריאליסטי המשלב וידאו, דיאלוג ומוזיקה ביצירה אחת עם תוצאה מרשימה עד חרדה, לצד שורה של חידושים בתחום הבינה המלאכותית, ומאותתת על שינוי דרמטי בעולם התוכן הדיגיטלי
כנס המפתחים השנתי של גוגל, I/O, לא אכזב השנה והציב את הבינה המלאכותית בחזית עם שורה של הכרזות מסעירות. גולת הכותרת הייתה ללא ספק Veo, מודל AI חדש ליצירת וידאו שמאיים לשנות את כל מה שחשבנו על יצירת תוכן ויזואלי. לצד Veo, חשפה גוגל גם יכולות חדשות בתחומי הסאונד, המוזיקה, ואפילו משקפי AI חכמים, המבססות את מעמדה כמובילה במירוץ החימוש הטכנולוגי.

Veo: כשמציאות ודמיון נפגשים על המסך
Veo, ובגרסתו המתקדמת Veo 3, הוא מודל המסוגל לייצר סרטונים שלמים, כולל דיאלוג, מוזיקה ואפקטים קוליים, מתוך הנחיה טקסטואלית (פרומפט) בודדת. היכולת לייצר סצנות מורכבות, החל מקטעי ASMR מרגיעים עם עיצוב סאונד מדויק ועד לסצנות אקשן קולנועיות עם אפקטים ברמה גבוהה, פותחת אפשרויות כמעט בלתי מוגבלות ליוצרי תוכן, משווקים ואנשי קולנוע.
אחד החידושים המרכזיים ב-Veo הוא האינטגרציה המלאה בין וידאו, אודיו ומוזיקה. המודל לא רק מייצר תמונה, אלא גם את הפסקול התואם, כולל סנכרון שפתיים (ליפ-סינק) מרשים במיוחד, גם בזוויות צילום מאתגרות. בנוסף, Veo 3 מפגין יכולות מרשימות ביצירת תוכן רב-לשוני, כולל דיבור במבטאים שונים, ושמירה על הבעות פנים ואמוציות אמינות. הסרטונים שהוצגו הדגימו רמת ריאליזם גבוהה, במיוחד בצילומי תקריב, ואף יכולת לייצר סצנות סוריאליסטיות ודמיוניות, כמו ג'ירפה רוכבת על אופנוע בניו יורק.
עם זאת, ל-Veo יש גם מגבלות. המודל עדיין מתקשה בצילומי "מדיום שוט" ועלול להציג עיוותים (מורפינג). גם סצנות מורכבות עם דמויות רבות או תנועה מהירה, כמו ריצה או ריקוד, עדיין מאתגרות את המערכת. מבחינת השוואה למתחרים כמו Sora של OpenAI, Runway ו-Kling, בדיקות ראשוניות מצביעות על יתרון ל-Veo ביצירת וידאו מטקסט, אם כי מודלים סיניים, כמו Kling, מציעים יכולות דומות ואף נתפסים כמובילים בתחומים מסוימים, תוך שהם עשויים להיות זמינים בעתיד בעלויות נמוכות יותר.
שליטה קולנועית וכלי עריכה מתקדמים
מעבר ליצירה הבסיסית, Veo מציע סט שלם של כלי שליטה ועריכה קולנועית. משתמשים יכולים להעלות תמונות ייחוס לדמויות וסצנות כדי לשמור על עקביות ויזואלית לאורך קטעי וידאו שונים. ניתן גם להגדיר סגנון ויזואלי רצוי באמצעות תמונת רפרנס. כלי שליטה מדויקים על תנועות מצלמה (כמו זום, תנועה אחורה או לצדדים), ואף אפשרות לקבוע את הפריים הראשון והאחרון ליצירת מעברים יצירתיים, מעניקים ליוצרים גמישות רבה.
יכולות עריכה מתקדמות כמו "אאוטפיינטינג" (Outpainting), המאפשרת הרחבת גבולות הווידאו הקיים, ומניפולציה של אובייקטים (הוספה או הסרה של עצמים מהפריים תוך התחשבות בתאורה וצללים), פותחות דלתות ליישומים חדשים, כולל התאמת תוכן לפורמטים שונים ואף יצירת תוכן למציאות מדומה. בנוסף, הוצגה יכולת "העברת ביצועים" (Performance Transfer), המאפשרת להלביש הופעה של שחקן חי על דמות שנוצרה על ידי AI, כולל סנכרון הבעות פנים ותנועות שפתיים.
Flow, Lyra 2 וחידושים נוספים: האקוסיסטם של גוגל מתרחב
כדי לאפשר יצירת סרטים ארוכים ומורכבים יותר, גוגל הציגה את "Flow", פלטפורמה חדשה המיועדת ליוצרי סרטים. Flow מאפשרת לשלב בצורה חלקה קטעי וידאו שנוצרו ממודלים שונים, ולנהל "מרכיבים" (ingredients) – אלמנטים ומשאבים ויזואליים לשימוש חוזר, כדי לשמור על עקביות לאורך הסרט.
בתחום המוזיקה, Lyra 2 הוא מודל AI חדש להלחנה ויצירת מוזיקה. הוא משולב כבר ב-YouTube Shorts ומאפשר למשתמשים לייצר פסקול מותאם אישית לסרטונים שלהם באמצעות הנחיה טקסטואלית. גם Google Beam, תוכנת ועידת וידאו מבוססת AI, מבטיחה שיחות וידאו תלת-ממדיות מציאותיות יותר על ידי לכידת דמות המשתמש ממספר זוויות. ואם לא די בכך, גוגל הציגה גם הדגמה של משקפי AI (פרויקט Astra) עם מצלמה קדמית ומיקרופון, המאפשרים למשתמש לתקשר עם ה-AI, לשאול שאלות ולקבל משוב קולי ותמונה בזמן אמת.
מבט לעתיד: תחרות ועולם תוכן חדש
ההכרזות של גוגל מציבות אותה בעמדה ייחודית, בזכות היכולת לשלב את מודלי ה-AI המתקדמים שלה במגוון רחב של מוצרים קיימים, מיוטיוב ועד לכלי ענן. למרות ההתקדמות המרשימה של Imagen 4 (מודל יצירת התמונות של גוגל) בהשוואה למתחרים כמו MidJourney, בעיקר בריאליזם ובפרטים, יש הטוענים כי התוצרים של MidJourney עדיין מציגים "אופי" יצירתי ואמנותי יותר.
המחיר של הטכנולוגיה החדשה, כפי שהוצג לדוגמה עבור חבילה הכוללת את Veo 3 (כ-125$ לחודש לשלושה חודשים ראשונים, ולאחר מכן 250$ לחודש בארה"ב), עדיין גבוה יחסית, אך הוא כולל גישה למגוון כלים ושירותים נוספים.
אין ספק שהחידושים שהציגה גוגל בכנס I/O מבשרים על עידן חדש ביצירת תוכן דיגיטלי. היכולת לייצר וידאו, סאונד ומוזיקה באיכות כה גבוהה ובקלות יחסית, תפתח אפשרויות חדשות בפני יוצרים מכל התחומים, אך גם תעלה שאלות לגבי עתידם של מקצועות מסוימים בתעשיית הקולנוע והפרסום. בעוד גוגל תופסת עמדת הובלה, עיני התעשייה נשואות גם למתחרות, ובמיוחד לאפל, לקראת הכנס הקרוב שלה, כדי לראות כיצד היא תשלב בינה מלאכותית במוצריה. המהפכה כבר כאן, והעתיד של יצירת התוכן נראה מרתק מתמיד.