פורסם 2013 במאי 1812 שנים שלום פורום,אני מנסה לקלוט מספר קבצי Excel ממספר מקורות שונים שמכילים מידע טבלאי ללא מזהה (ID).בסיום הקליטה המידע צריך להכתב למסד הנתונים (Oracle).הבעיה היא שיכולה להיות כפילות מידע ממספר מקורות שונים, ובגלל שאין לי מזהה יחיד עיקר ההשוואה מבוססת על טקסט.כלומר ניקח את הדוגמה הבאה בה אני מקבל את אותו המידע מכמה מקורות עם שינויים קלים:Source A: The Dark KnightSource B: Batman The Dark KnightSource C: The Dark Knight 2008התהליך הוא לא אוטומטי 100% כלומר כל עוד אין התאמה (לא נמצא כזה ערך במסד) תנתן התערבות למשתמש.רצוי שתהיה כמה שפחות התערבות מהמשתמש בייחוד אחרי שהוא כבר "התערב" לגבי קלט מסויים. יכול להיות שבאמת אין ערך מתאים עדיין במסד ואז המשתמש יפתח כניסה חדשה (פחות קשור אבל להבנת הרעיון).למישהו יש רעיון חכם כיצד מבצעים כזו משימה בלי לנפח את המסד בטריליון פירושים נוספים לאותו ערך ?או לפחות , אם כבר שומרים פירושים, פתרון יעיל וקל ?
פורסם 2013 במאי 1812 שנים מישהו פה שאל שאלה דומה לשלך:http://stackoverflow.com/questions/3329297/finding-groups-of-similar-strings-in-a-large-set-of-stringsספציפית מישהו נתן לו את הלינק הזה:http://matpalm.com/resemblance/שים לב כמובן שכשמדובר בשמות של סרטים יש ערכים שלמרות שהם דומים, הם למעשה שונים - לדוגמה The Dark Knight ו-The Dark Knight Rises. נערך 2013 במאי 1812 שנים על-ידי שניצל
פורסם 2013 במאי 1812 שנים מחבר בדיוק בגלל זה נתתי את הדוגמה הזו. דוגמה טובה להמחיש את המצב.בשאלה שהבאת המצב הוא דומה אבל ישנו שוני עיקרי:מדובר אצלו במספר סופי וידוע מראש של קטגוריות, פריווילגיה שאין במקרה שלי (קטגוריה במקרה שלי היא כותר ייחודי).אין התערבות של משתמש, דבר שלדעתי יכול לפשט את הפתרון איכשהו.האם בפתרון של ה - Jaccard זה יהיה ישים מבחינת סיבוכיות לחפש התאמות על אלפי ועשרות אלפי רשומות.לא חקרתי את האלגוריתם לעומק אבל הבנתי את הפואנטה הבסיסית.ושוב למה לא לנצל את העובדה שהתאמות שנעשו ידנית ישמרו איכשהו כדי להפחית שימוש באלגוריתמיקה יקרה ?תודה רבה אני מעריך את העזרה שלך.
ארכיון
דיון זה הועבר לארכיון ולא ניתן להוסיף בו תגובות חדשות.