פורסם 2011 בפברואר 114 שנים היי,אני צריך לבנות סקריפט שיחזיר לי את כל התמונות מאתר מסויים דרך פייתון.משהו כמו wget http://www.*******.co.il -r -A.jpg רק בפייתון.רציתי לדעת איך אני מתחיל לעשות את זה? באיזה ספריות להשתמש (urllib2?)? מה הרעיון הכללי?תודה.
פורסם 2011 בפברואר 114 שנים אתה בעצם צריך לבנות מה שנקרא Web Crawler - תוכנה שמסוגלת לסרוק אתר שלם.בגדול התוכנה שלך צריכה להיות מסוגלת:1. לקחת לינק לדף כלשהו באתר ולהוריד אותו, לדוגמה באמצעות urllib.2. לנתח את הדף ולהוציא ממנו לינקים חדשים. אפשר לעשות את זה עם ביטויים רגולרים מחוכמים, או ע"י ניתוח של ממש של תוכן ה-html (כמובן יש חבילות שיכולות לעשות את זה בשבילך).3. עבור כל אחד מהלינקים שמצאת (ולא הורדת עדיין), לבצע את הפעולות האלה מחדש.
פורסם 2011 בפברואר 114 שנים מחבר אוקיי,החלק השני הוא זה שנראה לי הכי מסובך, איך אני יכול "לנתח" את הדף ולהוציא ממנו את כל הדפים?יש לציין שאני לא יכול להשתמש בספריות חיצוניות של פייתון אלא רק בדיפולטיביות.קראתי שאפשר לעשות את זה עם HTMLLIB, זה באמת אפשרי? אם כן אז איך?תודה רבה לכל העוזרים.
פורסם 2011 בפברואר 214 שנים כמובן שזה אפשרי, בהתחשב בעובדה שזו בדיוק המטרה של החבילה (ניתוח קבצי html).קצת חיפוש בגוגל יוכל למצוא לך הרבה דוגמאות:http://www.google.co.il/search?q=htmlparser+python+extract+links
ארכיון
דיון זה הועבר לארכיון ולא ניתן להוסיף בו תגובות חדשות.