כתיבת crawler המסוגל לזהות ביטויים מסויימים (פרטים בפנים). - תכנות - HWzone פורומים
עבור לתוכן
  • צור חשבון

כתיבת crawler המסוגל לזהות ביטויים מסויימים (פרטים בפנים).


MasterDK

Recommended Posts

שלום לכולם.

אני מעוניין לכתוב web crawler המסוגל לענות על שאלות פשוטות.

למי שאולי זוכר היה מנוע חיפוש שהיית שואל אותו שאלה מסויימת והוא היה מציג לך תשובה מהרשת.

אני מעוניין ללמוד לכתוב משהוא כזה ולהתחיל לדוגמא עם שאילתות פשוטות.

כל מידע שיכול לעזור (פרט לחיפוש בגוגל אתצמד המילים how to write web crawler) יבורך!.

כמו כן אם כבר שואלים: החיפוש בגוגל הנ"ל העלה הרבה אתרים אך רובם מתחייחסים ל C# ו JAVA, נשאלת השאלה למה? web crawler אמור להיות משהוא יעיל ואם כן למה לא כותבים אותו ב C++ או C לדוגמא?

תודה רבה מראש!

קישור לתוכן
שתף באתרים אחרים

web crawler זה נושא מורכב, הזחלן עצמו יחסית פשוט אבל המנגנון שעומד מאחוריו של ניתוח ואינדוקס המידע הוא מורכב מאוד ולא תמצא לו תשובה פשוטה וקצרה, בסופו של דבר אלו הסודות המסחריים שמבדילים בין מנועי החיפוש השונים ומושקעים בהם מאות אלפי שעות עבודה. בכלל לא פשוט לטפל בכמויות המידע העצומות שזחלן כזה אוגר והשאלה איך לאכסן אותן בצורה יעילה עם גישה מהירה היא עסק מורכב בפני עצמו, אני יכול להבטיח לך שמנועי החיפוש הגדולים לא משתמשים בבסיס נתונים מהסוג המוכר עם שאילתות sql.

לגבי בחירת השפה, מהירות הזחלן מוגבלת בעיקר על ידי מהירות התקשורת והעברת הנתונים ברשת, זמן החישוב הוא יחסית זניח ועם אופטימיזציה טובה הבדלי הביצועים כנראה שלא מצדיקים את מחזורי הפיתוח הארוכים יותר שמאפיינים כתיבה ב-c/c++.

בניתי בזמנו אחד פשוט, הוא רק היה צריך לחפש בפורום אחד מסויים עם כמות מידע יחסית קטנה ומבנה מידע די קבוע ככה שעם הבעיות הגדולות לא הייתי צריך להתמודד. לצורך ההתחלה אני ממליץ להתבסס על פתרונות קיימים כמו apache lucene לצורך האינדוקס והשאילתות.

קישור לתוכן
שתף באתרים אחרים

תודה רבה על התגובה!

אני מבין שזה דבר מסובך ובעיקר התוצאה שאני רוצה להגיע אליה (זחלן המסוגל לקבל ביטוי מסויים ולזהות מה הוא, משהוא בסגנון semantic web). כנרא שאצטרך לחפש עוד ברשת.

תודה רבה!

קישור לתוכן
שתף באתרים אחרים

web crawler זה נושא מורכב, הזחלן עצמו יחסית פשוט אבל המנגנון שעומד מאחוריו של ניתוח ואינדוקס המידע הוא מורכב מאוד ולא תמצא לו תשובה פשוטה וקצרה, בסופו של דבר אלו הסודות המסחריים שמבדילים בין מנועי החיפוש השונים ומושקעים בהם מאות אלפי שעות עבודה. בכלל לא פשוט לטפל בכמויות המידע העצומות שזחלן כזה אוגר והשאלה איך לאכסן אותן בצורה יעילה עם גישה מהירה היא עסק מורכב בפני עצמו, אני יכול להבטיח לך שמנועי החיפוש הגדולים לא משתמשים בבסיס נתונים מהסוג המוכר עם שאילתות sql.

לגבי בחירת השפה, מהירות הזחלן מוגבלת בעיקר על ידי מהירות התקשורת והעברת הנתונים ברשת, זמן החישוב הוא יחסית זניח ועם אופטימיזציה טובה הבדלי הביצועים כנראה שלא מצדיקים את מחזורי הפיתוח הארוכים יותר שמאפיינים כתיבה ב-c/c++.

בניתי בזמנו אחד פשוט, הוא רק היה צריך לחפש בפורום אחד מסויים עם כמות מידע יחסית קטנה ומבנה מידע די קבוע ככה שעם הבעיות הגדולות לא הייתי צריך להתמודד. לצורך ההתחלה אני ממליץ להתבסס על פתרונות קיימים כמו apache lucene לצורך האינדוקס והשאילתות.

זו אחת התשובות האיכותיות ביותר שראיתי בפורום, מכל הבחינות. סתם, שתדע/י.

קישור לתוכן
שתף באתרים אחרים

ארכיון

דיון זה הועבר לארכיון ולא ניתן להוסיף בו תגובות חדשות.

×
  • צור חדש...