במבצע טכנולוגי מורכב הצליחה קבוצת "הארכיון של אנה" לשאוב את רוב קטלוג הסטרימינג הגדול בעולם. בעוד הכותרות בעיתונות זעקו על "מוזיקה בחינם", ניתוח מעמיק של הנתונים חושף את המטרה האמיתית: בניית התשתית הלא-חוקית הגדולה בעולם לאימון הדור הבא של הבינה המלאכותית
בעידן הסטרימינג התרגלנו למחשבה שהמוזיקה זמינה לנו בכל רגע נתון, אך היא מעולם לא הייתה באמת שלנו. אנחנו שוכרים גישה, לא מחזיקים בנכס. השבוע, התפיסה הזו עמדה למבחן דרמטי כאשר קבוצת האקטיביסטים המכונה "הארכיון של אנה" (Anna's Archive) ביצעה את מה שנראה כמו אחד המהלכים הנועזים ביותר בתולדות האינטרנט: שכפול כמעט מלא של ספריית ספוטיפיי. לא מדובר בעוד הדלפה נקודתית של אלבום כזה או אחר, אלא ב"גיבוי" מערכתי בהיקף עצום של 300 טרה-בייט. המהלך הזה מעלה שאלות קיומיות על הגבול הדק שבין שימור תרבותי לגניבה מסחרית, ובעיקר – מי באמת ירוויח מההר הזה של מידע, שערכו עבור חברות הטכנולוגיה עולה עשרות מונים על ערכו עבור המאזין הפשוט.

מפלצת נתונים בקנה מידה תעשייתי
כדי להבין את גודל האירוע, צריך לצלול למספרים ולטכנולוגיה שמאחורי הקלעים. הקבוצה פיתחה כלי קצירת נתונים (Scraping) מתוחכמים שעקפו את מנגנוני ההגנה של ענקית הסטרימינג. התוצאה היא מאגר הכולל מטא-דאטה של כ-256 מיליון רצועות – המהווים כ-99% מנפח ההאזנה בפלטפורמה – וקבצי שמע בפועל של כ-86 מיליון שירים. הטענה המובילה של הקבוצה היא שספוטיפיי מהווה "נקודת כשל בודדת" עבור התרבות האנושית; אם השרתים יפלו, המורשת המוזיקלית עלולה להימחק. אך מתחת לרטוריקת השימור, הנתונים מספרים סיפור אחר.
מטא-דאטה: הזהב החדש של עמק הסיליקון
הפרט הטכני החשוב ביותר שרבים פספסו הוא היקף ה"מטא-דאטה" (Metadata). הקבוצה הצליחה לשים את ידה על כ-186 מיליון קודי ISRC (תעודות הזהות הבינלאומיות של הקלטות מוזיקה). לשם השוואה, מאגר המידע הפתוח הגדול בעולם עד כה, MusicBrainz, מחזיק רק בכ-5 מיליון קודים כאלו. הפער הזה הוא בלתי נתפס.
עבור חברת AI, השמע עצמו הוא רק חצי מהמשוואה. המידע הנלווה – הקצב (BPM), המצב הרגשי, הז'אנר והמבנה – הוא מה שמאפשר למודל "להבין" מה הוא שומע ולחולל מוזיקה חדשה ברמת דיוק מפחידה. יתרה מכך, באתר הארכיון עצמו מופיעה פנייה ישירה לחברות AI עם הצעה ל"גישה ארגונית במהירות גבוהה" לנתונים. המסכה הוסרה: זהו לא פרויקט שימור תמים, אלא סופר-מרקט של דאטה גנוב לתעשייה הרעבה ביותר בעולם הטכנולוגיה, שמעדיפה לאמן מודלים על חומרים "אפורים" מאשר לשלם מיליארדים בתמלוגים.

הנדסה של פיראטים: OGG Vorbis מול Opus
התחכום הטכני של הפריצה מעיד על תכנון מדוקדק לחיסכון במשאבים, המותאם בדיוק לצרכי אימון מודלים ולא להאזנה "אודיופילית". הפורצים ביצעו הפרדה כירורגית: השירים הפופולריים נשמרו בפורמט המקורי והאיכותי יותר של ספוטיפיי (OGG Vorbis ב-160kbps), בעוד עשרות מיליוני שירים "נישתיים" קודדו מחדש לפורמט OGG Opus ב-75kbps.
הבחירה ב-Opus אינה מקרית. זהו פורמט יעיל להחריד ששומר על מידע קריטי לאימון מודלים גם בנפחים זעירים. כך הצליחו הפורצים לדחוס את "כל המוזיקה שאי פעם נוצרה" לתוך נפח נסבל להפצה. בנוסף, חשיפת שיטת הפעולה מלמדת על ניצול חולשות ב-API של ספוטיפיי באמצעות "קצירת אסימונים" (Token Harvesting) מסיבית, שאפשרה להם לעקוף את מגבלות התעבורה ולשאוב את המידע מתחת לאף של מערכות ההגנה במשך תקופה ארוכה.
ספוטיפיי מגיבה: "טקטיקות אסורות"
ספוטיפיי, מצידה, הגיבה במהירות לאירוע. החברה אישרה כי זיהתה את הפריצה וחסמה את החשבונות המעורבים, תוך שהיא מדגישה את מחויבותה להגנה על האמנים. בתגובה רשמית שמסרה החברה, הובהר כי זוהו ניסיונות לעקוף את מנגנוני ה-DRM (ניהול זכויות דיגיטלי) וכי החברה הטמיעה אמצעי הגנה חדשים.
בהודעתה המקורית של ספוטיפיי לתקשורת הבינלאומית, נמסר:
"An investigation into unauthorized access identified that a third party scraped public metadata and used illicit tactics to circumvent DRM to access some of the platform’s audio files. We are actively investigating the incident… We’ve implemented new safeguards for these types of anti-copyright attacks and are actively monitoring for suspicious behavior."

הסוף ל"הסכם השלום" של הסטרימינג
במשך עשור וחצי שרר שקט יחסי בתעשיית המוזיקה. הסטרימינג הציע עסקה פשוטה: נוחות תמורת ויתור על בעלות. הפריצה הנוכחית מרסקת את ההסכם הזה. היא מוכיחה שחומות הגן הסגור של ספוטיפיי, אפל ויוטיוב אינן בלתי עבירות.
אך הסכנה הגדולה כעת היא לא חזרה לימי הטורנטים של שנות ה-2000, אלא היווצרות "אינטרנט מפוצל" (Splinternet) של מידע. בעוד בתי המשפט בארה"ב ובאירופה דנים בכבדות ראש האם מותר לאמן בינה מלאכותית על חומר מוגן, המציאות בשטח כבר הכריעה. המודלים של 2026 יאומנו על המאגר הזה, בין אם בצורה גלויה ובין אם במחשכים. ספוטיפיי אולי חסמה את המשתמשים הפורצים, אך את הקובץ שמסתובב כעת בשרתים מוצפנים ברחבי העולם – שום צו בית משפט לא יוכל למחוק.


