עבור לתוכן

עזרה בייבוא ונירמול של נתונים ממקורות מידע שונים

Featured Replies

פורסם

שלום פורום,

אני מנסה לקלוט מספר קבצי Excel ממספר מקורות שונים שמכילים מידע טבלאי ללא מזהה (ID).

בסיום הקליטה המידע צריך להכתב למסד הנתונים (Oracle).

הבעיה היא שיכולה להיות כפילות מידע ממספר מקורות שונים, ובגלל שאין לי מזהה יחיד עיקר ההשוואה מבוססת על טקסט.

כלומר ניקח את הדוגמה הבאה בה אני מקבל את אותו המידע מכמה מקורות עם שינויים קלים:

Source A: The Dark Knight

Source B: Batman The Dark Knight

Source C: The Dark Knight 2008

  • התהליך הוא לא אוטומטי 100% כלומר כל עוד אין התאמה (לא נמצא כזה ערך במסד) תנתן התערבות למשתמש.
  • רצוי שתהיה כמה שפחות התערבות מהמשתמש בייחוד אחרי שהוא כבר "התערב" לגבי קלט מסויים.
  • יכול להיות שבאמת אין ערך מתאים עדיין במסד ואז המשתמש יפתח כניסה חדשה (פחות קשור אבל להבנת הרעיון).

למישהו יש רעיון חכם כיצד מבצעים כזו משימה בלי לנפח את המסד בטריליון פירושים נוספים לאותו ערך ?

או לפחות , אם כבר שומרים פירושים, פתרון יעיל וקל ?

פורסם

מישהו פה שאל שאלה דומה לשלך:

http://stackoverflow.com/questions/3329297/finding-groups-of-similar-strings-in-a-large-set-of-strings

ספציפית מישהו נתן לו את הלינק הזה:

http://matpalm.com/resemblance/

שים לב כמובן שכשמדובר בשמות של סרטים יש ערכים שלמרות שהם דומים, הם למעשה שונים - לדוגמה The Dark Knight ו-The Dark Knight Rises.

נערך על-ידי שניצל

פורסם
  • מחבר

בדיוק בגלל זה נתתי את הדוגמה הזו. דוגמה טובה להמחיש את המצב.

בשאלה שהבאת המצב הוא דומה אבל ישנו שוני עיקרי:

  1. מדובר אצלו במספר סופי וידוע מראש של קטגוריות, פריווילגיה שאין במקרה שלי (קטגוריה במקרה שלי היא כותר ייחודי).
  2. אין התערבות של משתמש, דבר שלדעתי יכול לפשט את הפתרון איכשהו.

האם בפתרון של ה - Jaccard זה יהיה ישים מבחינת סיבוכיות לחפש התאמות על אלפי ועשרות אלפי רשומות.

לא חקרתי את האלגוריתם לעומק אבל הבנתי את הפואנטה הבסיסית.

ושוב למה לא לנצל את העובדה שהתאמות שנעשו ידנית ישמרו איכשהו כדי להפחית שימוש באלגוריתמיקה יקרה ?

תודה רבה אני מעריך את העזרה שלך.

ארכיון

דיון זה הועבר לארכיון ולא ניתן להוסיף בו תגובות חדשות.

דיונים חדשים