עבור לתוכן

View in the app

A better way to browse. Learn more.

HWzone - פורומים

A full-screen app on your home screen with push notifications, badges and more.

To install this app on iOS and iPadOS

Tap the Share icon in Safari
Scroll the menu and tap Add to Home Screen.
Tap Add in the top-right corner.

To install this app on Android

Tap the 3-dot menu (⋮) in the top-right corner of the browser.
Tap Add to Home screen or Install app.
Confirm by tapping Install.

HWzone - פורומים

HWzone - פורומים

התחברות

כתובת אימייל

סיסמה

זכור אותי
לא מומלץ לסמן במחשבים ציבוריים

שכחת סיסמה?

או התחבר עם אחד מהשירותים האלה
צור חשבון

עזרה בייבוא ונירמול של נתונים ממקורות מידע שונים

פתח דיון חדש

פורסם 2013 במאי 1812 שנים

שלום פורום,

אני מנסה לקלוט מספר קבצי Excel ממספר מקורות שונים שמכילים מידע טבלאי ללא מזהה (ID).

בסיום הקליטה המידע צריך להכתב למסד הנתונים (Oracle).

הבעיה היא שיכולה להיות כפילות מידע ממספר מקורות שונים, ובגלל שאין לי מזהה יחיד עיקר ההשוואה מבוססת על טקסט.

כלומר ניקח את הדוגמה הבאה בה אני מקבל את אותו המידע מכמה מקורות עם שינויים קלים:

Source A: The Dark Knight

Source B: Batman The Dark Knight

Source C: The Dark Knight 2008

התהליך הוא לא אוטומטי 100% כלומר כל עוד אין התאמה (לא נמצא כזה ערך במסד) תנתן התערבות למשתמש.
רצוי שתהיה כמה שפחות התערבות מהמשתמש בייחוד אחרי שהוא כבר "התערב" לגבי קלט מסויים.
יכול להיות שבאמת אין ערך מתאים עדיין במסד ואז המשתמש יפתח כניסה חדשה (פחות קשור אבל להבנת הרעיון).

למישהו יש רעיון חכם כיצד מבצעים כזו משימה בלי לנפח את המסד בטריליון פירושים נוספים לאותו ערך ?

או לפחות , אם כבר שומרים פירושים, פתרון יעיל וקל ?

ציטוט

פורסם 2013 במאי 1812 שנים

מישהו פה שאל שאלה דומה לשלך:

http://stackoverflow.com/questions/3329297/finding-groups-of-similar-strings-in-a-large-set-of-strings

ספציפית מישהו נתן לו את הלינק הזה:

http://matpalm.com/resemblance/

שים לב כמובן שכשמדובר בשמות של סרטים יש ערכים שלמרות שהם דומים, הם למעשה שונים - לדוגמה The Dark Knight ו-The Dark Knight Rises.

נערך 2013 במאי 1812 שנים על-ידי שניצל

ציטוט

פורסם 2013 במאי 1812 שנים

מחבר

בדיוק בגלל זה נתתי את הדוגמה הזו. דוגמה טובה להמחיש את המצב.

בשאלה שהבאת המצב הוא דומה אבל ישנו שוני עיקרי:

מדובר אצלו במספר סופי וידוע מראש של קטגוריות, פריווילגיה שאין במקרה שלי (קטגוריה במקרה שלי היא כותר ייחודי).
אין התערבות של משתמש, דבר שלדעתי יכול לפשט את הפתרון איכשהו.

האם בפתרון של ה - Jaccard זה יהיה ישים מבחינת סיבוכיות לחפש התאמות על אלפי ועשרות אלפי רשומות.

לא חקרתי את האלגוריתם לעומק אבל הבנתי את הפואנטה הבסיסית.

ושוב למה לא לנצל את העובדה שהתאמות שנעשו ידנית ישמרו איכשהו כדי להפחית שימוש באלגוריתמיקה יקרה ?

תודה רבה אני מעריך את העזרה שלך.

ציטוט

ארכיון

דיון זה הועבר לארכיון ולא ניתן להוסיף בו תגובות חדשות.

עבור לרשימת הדיונים

מחשבים

מי ביקש תמחור זול ולא קיבל? בדקנו את Core Ultra 7 270K Plus ו-Core Ultra 5 250K Plus החדשים של אינטל בגיימינג

סדרת Core Ultra 200S של אינטל מקבלת היום זריקת ביצועים ותמורה משופרת משמעותית למחיר - האם הצעד הזה עשוי להפוך את LGA1851 לפלטפורמה תוססת משמעותית מול התחרות? בדקנו את צמד המעבדים החדשים
גיימינג

כזה עוד לא ראינו: Crimson Desert לא תומך בכרטיסי המסך של אינטל

אחד המשחקים הגדולים השנה הושק הלילה ולהפתעת רבים הוא מגיע ללא תמיכה כלל בכרטיסי המסך של אינטל לרבות ליבות גרפיות וכרטיסי מסך מסדרות Arc. התגובה? בקשו החזר כספי על רכישת המשחק
טכנולוגיה

חזון המטאוורס מחשב מסלול מחדש: מטא מקפיאה את פיתוח פלטפורמת הדגל שלה למציאות מדומה

החברה שהימרה על עתיד וירטואלי ושינתה את שמה לשם כך, עוצרת את פיתוח התוכן לפלטפורמת Horizon Worlds בסביבת המציאות המדומה. במקום מיליארדי משתמשים שחיים ועובדים באוואטרים תלת-ממדיים, החברה מתמודדת עם הפסדים כבדים, עולמות דיגיטליים נטושים, ומעבירה את כובד המשקל לבינה מלאכותית ולפלטפורמה מבוססת סמארטפון
כרטיסי מסך

NVIDIA חושפת את DLSS 5 – ולרשת יש הרבה מה להגיד

במהלך כנס GTC, כנס המפתחים הטכנולוגי הגדול של NVIDIA, היא חשפה לראשונה את טכנולוגיית DLSS 5 עבור כרטיסי מסך. בדרך כלל, ישנה סקרנות רבה על השיפורים השונים. הפעם, לרבים היה פה מלא על מה שנראה כמו הפיכת כוונה אומנותית לתמונות AI גנריות
מחשבים

מערכות ה-AI החדשות של NVIDIA יעבדו על מעבדי אינטל: Xeon 6 נבחר שוב כמעבד המארח של DGX Rubin

ההכרזה בכנס GTC מדגישה את חזרתו של ה-CPI לקדמת הבמה של תשתיות ה-AI עם תרומה ישראלית לטכנולוגיות שמאפשרות Inference מהיר ובהיקף רחב
מחשבים

כנס GTC: נחשף דור המוצרים הבא בסדרת Vera Rubin של NVIDIA

שבעה שבבים חדשים שנמצאים כעת בייצור מסחרי ירחיבו את קנה המידה של מפעלי הבינה המלאכותית הגדולים ביותר בעולם, עם תשתיות AI הניתנות להתאמה ומיועדות לכל אחד משלבי הבינה המלאכותית: Pretraining, Post Training, Test-Time Scaling ו-Agentic Inference

Where:

חיפוש:

תאריך יצירה:

Use:

עודכן לאחרונה:

Chrome (Android)

Tap the lock icon next to the address bar.
Tap Permissions → Notifications.
Adjust your preference.

Chrome (Desktop)

Click the padlock icon in the address bar.
Select Site settings.
Find Notifications and adjust your preference.