עבור לתוכן

View in the app

A better way to browse. Learn more.

HWzone - פורומים

A full-screen app on your home screen with push notifications, badges and more.

To install this app on iOS and iPadOS

Tap the Share icon in Safari
Scroll the menu and tap Add to Home Screen.
Tap Add in the top-right corner.

To install this app on Android

Tap the 3-dot menu (⋮) in the top-right corner of the browser.
Tap Add to Home screen or Install app.
Confirm by tapping Install.

HWzone - פורומים

HWzone - פורומים

התחברות

כתובת אימייל

סיסמה

זכור אותי
לא מומלץ לסמן במחשבים ציבוריים

שכחת סיסמה?

או התחבר עם אחד מהשירותים האלה
צור חשבון

מציאת מילים בעלי סמיכות בניתוח (Parsing) טקסט

פתח דיון חדש

פורסם 2015 ביולי 2910 שנים

אני מעוניין לבצע ניתוח (Parsing) על טקסט ולזהות סמיכות בין מילים. אני שומר את המילים בתוך dictionary מסוג <string, int> (ז"א, סוג של list אשר שומר string מסויים ואת מספר הפעמים - ה-count-ים - שהופיע בטקסט).

אם יש לי את המילים "בית ספר", "עורך דין", "בית משפט" בטקסט, אני מעוניין שהאלגוריתם יזהה (למשל) שהמילה "בית" ושהמילה "ספר" הן מילים סמוכות ושיחשיב את שתי המילים בתור "צירוף" / כמקום אחד ב-dictionary עם count יחיד ולא כ-2 מקומות עם שני count-ים נפרדים.

חשבתי על אפשרות השוואה של כל מילה ומילה בטקסט למאגר של כל מילות הסמיכות הקיימות. אם המילה הנוכחית היא התחלה של אחד מה"צירופים" שבמאגר, תתבצע השוואה בין המילה העוקבת לנוכחית לבין הסיומת של ה"צירוף" שנמצא (כמובן שאבצע מיון על המאגר בכדי לחפש בו ביעילות של log n).

האם קיים מאגר כמו המאגר שהוזכר לעיל? אשמח לקישור לאתר / להורדה.

אם אין כזה מאגר:

אני לא מודע לעובדות המדוייקות, אבל אני מניח שאי אפשר לבצע זאת ע"י אלגוריתם בנכונות של 100%. כל אלגוריתם שמתקרב לנכונות של 80-90% יתקבל בברכה.

ציטוט

פורסם 2015 ביולי 2910 שנים

אם יש לך כמות מספיק גדולה של טקסט אז אתה יכול לספור את זוגות המילים, ואם יש זוג מילים שכמות המופעים שלו גדולה ביחס לכמות המופעים של כל אחת מהמילים שמרכיבות אותו (נניח, המילה "בית" והמילה "ספר" מופיעות 10 פעמים כל אחת, והצמד "בית ספר" מופיע 7 פעמים) אז אתה יכול להניח שמדובר בסמיכות. כמובן תצטרך כמות טקסט גדולה ולשחק עם זה קצת על מנת לקבוע את החסמים הנכונים.

ציטוט

פורסם 2015 ביולי 2910 שנים

אפשר לעשות זאת בנכונות של מאה אחוז, כל עוד יש לך את כל המילים שאתה רוצה. ביטוי רגולרי פשוט מאפשר בניה של זה. אבנה משהו קטן והערוך.

ציטוט

פורסם 2015 ביולי 2910 שנים

הבעיה היא כמובן שלהשיג מאגר של כל צירופי המילים בשפה העברית הוא לא משהו שנראה לי קיים איפשהו.

אתה בעצם מדבר על מסד נתונים של מילון לשפה העברית, לא מכיר שום דבר כזה זמין.

ציטוט

פורסם 2015 ביולי 2910 שנים

התבלבלתי, חשבתי שאתה מחפש על דרך לעשות זאת וזה מה שכתבתי. לא חשבתי שאתה מחפש מאגר. הפתרון של שניצל נראה לי הכי הגיוני. אשמח לעבוד על זה במידה ותתקע.

.

ציטוט

פורסם 2015 ביולי 2910 שנים

hspell (מה שגוגל משתמשת בו) אבל הבניה והמבנה של המאגר הרבה יותר מסובכים מהמבנה הפשטני שתיארת

ציטוט

ארכיון

דיון זה הועבר לארכיון ולא ניתן להוסיף בו תגובות חדשות.

עבור לרשימת הדיונים

מחשבים

מי ביקש תמחור זול ולא קיבל? בדקנו את Core Ultra 7 270K Plus ו-Core Ultra 5 250K Plus החדשים של אינטל בגיימינג

סדרת Core Ultra 200S של אינטל מקבלת היום זריקת ביצועים ותמורה משופרת משמעותית למחיר - האם הצעד הזה עשוי להפוך את LGA1851 לפלטפורמה תוססת משמעותית מול התחרות? בדקנו את צמד המעבדים החדשים
גיימינג

כזה עוד לא ראינו: Crimson Desert לא תומך בכרטיסי המסך של אינטל

אחד המשחקים הגדולים השנה הושק הלילה ולהפתעת רבים הוא מגיע ללא תמיכה כלל בכרטיסי המסך של אינטל לרבות ליבות גרפיות וכרטיסי מסך מסדרות Arc. התגובה? בקשו החזר כספי על רכישת המשחק
טכנולוגיה

חזון המטאוורס מחשב מסלול מחדש: מטא מקפיאה את פיתוח פלטפורמת הדגל שלה למציאות מדומה

החברה שהימרה על עתיד וירטואלי ושינתה את שמה לשם כך, עוצרת את פיתוח התוכן לפלטפורמת Horizon Worlds בסביבת המציאות המדומה. במקום מיליארדי משתמשים שחיים ועובדים באוואטרים תלת-ממדיים, החברה מתמודדת עם הפסדים כבדים, עולמות דיגיטליים נטושים, ומעבירה את כובד המשקל לבינה מלאכותית ולפלטפורמה מבוססת סמארטפון
כרטיסי מסך

NVIDIA חושפת את DLSS 5 – ולרשת יש הרבה מה להגיד

במהלך כנס GTC, כנס המפתחים הטכנולוגי הגדול של NVIDIA, היא חשפה לראשונה את טכנולוגיית DLSS 5 עבור כרטיסי מסך. בדרך כלל, ישנה סקרנות רבה על השיפורים השונים. הפעם, לרבים היה פה מלא על מה שנראה כמו הפיכת כוונה אומנותית לתמונות AI גנריות
מחשבים

מערכות ה-AI החדשות של NVIDIA יעבדו על מעבדי אינטל: Xeon 6 נבחר שוב כמעבד המארח של DGX Rubin

ההכרזה בכנס GTC מדגישה את חזרתו של ה-CPI לקדמת הבמה של תשתיות ה-AI עם תרומה ישראלית לטכנולוגיות שמאפשרות Inference מהיר ובהיקף רחב
מחשבים

כנס GTC: נחשף דור המוצרים הבא בסדרת Vera Rubin של NVIDIA

שבעה שבבים חדשים שנמצאים כעת בייצור מסחרי ירחיבו את קנה המידה של מפעלי הבינה המלאכותית הגדולים ביותר בעולם, עם תשתיות AI הניתנות להתאמה ומיועדות לכל אחד משלבי הבינה המלאכותית: Pretraining, Post Training, Test-Time Scaling ו-Agentic Inference

Where:

חיפוש:

תאריך יצירה:

Use:

עודכן לאחרונה:

Chrome (Android)

Tap the lock icon next to the address bar.
Tap Permissions → Notifications.
Adjust your preference.

Chrome (Desktop)

Click the padlock icon in the address bar.
Select Site settings.
Find Notifications and adjust your preference.