במעבדות Google DeepMind פותחה טכנולוגיה חדשנית המאפשרת למחשבים לשוחח עמנו בקול שנשמע אנושי וטבעי הרבה יותר
DeepMind היא חברה בריטית שהוקמה בשנת 2010 מתוך מטרה לחקור ולפתח בינה מלאכותית. בתחילת דרכה פיתחה החברה יכולות שאפשרו למחשב ללמוד בעצמו לשחק במשחקי מחשב ישנים כדוגמת "Space Invaders" על ידי ניתוח פיקסלים בלבד כקלט למחשב. לאחר מספר רב של משחקים ולמידה עצמית פיתח המחשב יכולות לנצח במשחק זה ובעוד 48 משחקי מחשב אחרים. בשנת 2014 נקנתה החברה על ידי Google.
השנה עלתה החברה שוב לסדר היום הציבורי לאחר שפיתחה תוכנה בשם AlphaGo, שהצליחה לנצח אלוף עולם במשחק GO. החברה מנסה ליצור בינה מלאכותית המסוגלת לפתור בעיות מורכבות מבלי שיהיה צורך ללמד את המחשב כיצד לעשות זאת. לדברי החברה, אם יצליחו המפתחים במטרתם הם יוכלו לפתור בעיות חשובות בתחומי הרפואה, האקלים ובחקר היקום. בין השאר סייעה הבינה המלאכותית לצמצם בכ-40 אחוזים את עלויות הקירור של חוות השרתים העצומות של Google.
כעת פרסמה DeepMind טכנולוגיה חדשה בשם WaveNet, המאפשרת ליצור קול ממוחשב שיישמע טבעי יותר מאי פעם. הדרך בה מיוצר כיום קול אנושי בעוזרים ממוחשבים כמו Siri או Cortana היא על ידי שימוש בקבצי קול רבים של דובר אנושי. אותם קולות נחתכים ומאורגנים על ידי המחשב כדי ליצור קול ממוחשב ברמה גבוהה יחסית – אך עם בעייתיות רבה ביצירת הטון, הרגש והאינטונציה המתאימה בעת הרכבת משפט שלם. כאשר אנו שומעים קול המיוצר על ידי עוזר אישי ממוחשב אנו חווים קול הנשמע אנושי, אך יחד עם זאת עדיין בעל תחושה רובוטית למדי. WaveNet גם היא, חיברה את דגימות הקול החתוך והמסודר למשפט שלם והוסיפה עליו את האינטונציה והניואנסים האנושיים, תוך התבססות על קולות אנושיים נוספים מהם למדה המערכת.
כך שבעוד שקול ממוחשב בימינו עשוי להישמע כך:
הקול המיוצר על ידי WaveNet קרוב יותר לקול אנושי ונשמע כך:
החברה סקרה מאות אנשים כדי לבדוק מהו הציון של רמת אנושיות הקול מ-1 עד 5. הציון שקיבלה הטכנולוגיה החדשה בשפה האנגלית היה 4.21 לעומת האלטרנטיבה הקיימת, שקיבלה ציון של 3.86. אגב, גם קול אנושי לא קיבל על ידי הנסקרים את הציון 5. ציונו בסקר היה 4.55, כך שמערכת WaveNet קיבלה ציון הקרוב מאד לרמה האנושית שנסקרה.
העוזרים האישיים הממוחשבים של ימינו כדוגמתSiri ו-Cortana הולכים וצוברים תאוצה עם התקדמות הטכנולוגיה. אך דרך הביטוי הרובוטית שלהם יוצרת אצל רבים ממשתמשיהם האנושיים תחושת ריחוק המוכרת בעולם הרובוטיקה והבינה המלאכותית כ"עמק המוזרות", תחושה הנוצרת כאשר משהו נראה או נשמע אנושי אך בכל זאת אינו ממש כזה. WaveNet בהחלט יכולה לסייע לפתור את התחושה הרובוטית המנוכרת שיוצר הקול הממוחשב המוכר היום.
בשלב זה מערכת WaveNet אינה מתאימה לשילוב במחשבים ביתיים ובטלפונים חכמים, בגלל צריכת משאבי מיחשוב רבים מדי לצורך ייצור הקול הטבעי. גם עם פריצת הדרך הטכנולוגית הזו נראה כי אנו עדיין רחוקים מאוד ממוצר שיישמע בדומה לעוזרת האישית Samantha בסרט המדע הבדיוני Her. אך עם חלוף הזמן, שיפור בעוצמת המיחשוב וביעילות טכנולוגיית WaveNet, בהחלט ייתכן שנשמע עוזרים ידידותיים יותר וטבעיים יותר מאי פעם. בכל אופן קיים כאן צעד נוסף בכיוון.
https://www.youtube.com/watch?v=WzV6mXIOVl4