עבור לתוכן

ייבוא נתונים מאינטרנט לאורקל או לקובץ

Featured Replies

פורסם

שלום

אני מעוניין להוריד נתונים לטבלת אורקל מאתר רשות המיסים

https://www.misim.gov.il/svinfonadlan2010/startPageNadlan.aspx?ProcessKey=239d529c-7e82-4f6b-8d3c-91dc451eff44

ישירות לטבלה אורקל , או לחליפין להוריד את הנתונים לקובץ כלשהו כגון TXT ,csv

אני מעוניין לבצע על הנתונים מחקר ,

האם יש למישהו רעיון כיצד ניתן לעשות דבר כזה? האם מישהו יודע אם אשר לעשות select לנתונים ישר לטבלת אורקל

לא חייב מאתר רשות המיסים אפשרי מאתרים אחרים שמפרסמים את המידע

 

אשמח לקבל סיוע

 

(ולכל המודאגים מראש , זה חוקי אם זה למחקר פרטי ולא לשימוש מסחרי )

 

 

 

פורסם

אפשרי ,

 

אופציה אחת היא לכתוב תוכנית שתכניס את הנתונים לטבלה ולשלוף ממנה או פרצדורה PIPELINED שתעשה את זה ותחזיר לך טבלה.

ב PLSQL אפשר לכתוב פרצדורה שתשתמש ב UTL_HTTP כדי להחזיר תוכן של עמוד WEB. זה יכול להיות WEB SERVICE שמחזיר XML או JASON או סתם עמוד XML.

על ה DATA שחזר אפשר לעשות PARSING , אם זה XML אז אפשר להשתמש ב XMLELEMENT כדי להכניס את הנתונים לטבלה למשל.

 

אם הנתונים נמצאים בקובץ CSV אז אפשר לבנות EXTERNAL TABLE. למעשה מדובר בטבלה שמבוססת על קובץ. אתה צריך להגדיר DIRECTORY ב DB שמכוון למיקום של הקובץ ושליוזר של ה DB יש הרשאות עליו. אחר כך להגדיר את הטבלה על הקובץ ואז תוכל לשלוף ישירות מהקובץ.

הנה לינק עם דוגמא

https://oracle-base.com/articles/9i/external-tables-9i

 

אפשר לכתוב גם תוכנית ב JAVA שתעשה את זה ולהפעיל אותה מ PLSQL.

 

 

הבעיה העיקרית שאני רואה היא שבאתר של רשות המיסים יש CAPTCHA במיוחד כדי לוודא שהחיפוש מתבצע ע"י בן אדם ולא תוכנת מחשב.

 

 

פורסם
  • מחבר

היי ,

קודם תודה על התשובה

אם נעזוב לרגע את הבעיה של הCAPTCHA , כי אפשר לשלוף את הנתונים מאתרים אחרים , ולא בהכרח מרשות המיסים ,

לפי מה שהבנתי UTL_HTTP מביא את ה HTML של האתר ( אני לא כל כך מכיר את ה UTL הזה),

השאלה האם אפשר דרכו לייבא את הדטא ,

כלומר ייתכן שהדטא מאחר שהיא גדולה ,נמצאת על  טבלאות , והאתר שולף כל פעם לפי השאילתות באתר ,

האם ה UTL_HTTP יכול למשוך את כל הדטא ? 

 

פורסם

ע"י UTL_HTTP אתה יכול לקבל HTML של עמוד מסויים או להפעיל WEB SERVICE או REST API שמחזיר למשל XML.

אני לא רוצה להתחיל לסבך אותך , תן כתובת קונקרטית שאפשר לשלוף ממנה את הנתונים ואני ינסה לעזור.

מאתר רשות המיסים זה לא יעבוד

 

 

 

פורסם

זה REST API בהחלט אפשר לעבוד עם זה

זה החלק הקבוע בלינק http://homeprices.yad2.co.il/street

 

עם תיכנס ללינק הזה למשל

http://homeprices.yad2.co.il/street/תל-אביב-יפו

תקבל רשימת רחובות. אתה יכול להוציא מה HTML רשימה של רחובות.

 

אחר כך להרכיב לינק כמו זה ששלחת לכל רחוב

http://homeprices.yad2.co.il/street/תל-אביב-יפו/דיזנגוף-1

 

ומשם להוציא את מה שאתה צריך וכו.

 

כמובן שצריך לכתוב את כל זה בקוד לא להריץ אחד אחד ידנית.

 

בכל מקרה זה עבודה, לא הכי מסובך אבל לא כזה פשוט.

 

צריך אולי לחפור את הקוד של העמוד ולראות אם אפשר למצוא דרך לפנות ישירות ל API שמחזיר רק JASON או XML עם הנתונים.

 

לדעתי יש לרשות המיסים WEB SERVICE שניתן להשתמש בו כדי לגשת ישירות למידע וזה כנראה מה שיד 2 ואתרים אחרים עושים. רק צריך למצוא מה הלינק.

 

פורסם
  • מחבר

תודה רבה , אני אנסה את זה 

פורסם
  • מחבר

כנראה שיש להם באמת web service ברשות המיסים , כי לקבצים אחרים הם כן מפרסמים אתו

לדוגמא https://taxes.gov.il/About/Data/Pages/DataSearchResult.aspx

 

הבעיה שלמידע על נדלן הם לא פירסמו

פורסם

יש לי בשבילך כיוון אבל זה לא הולך להיות תותים.

 

יש את האתר הזה

https://www.nadlan.gov.il/

 

הרצתי שם חיפוש כשברקע עובד fiddler

ראיתי שם 2 REST API שעובדים ומחזרים את הנתונים בצורת JSON

 

 

אתה צריך לעשות עבודה ולהבין 1. מה לשלוח להם 2. להבין את מבנה הנתונים שהם מחזירים.

 

הייתי עוזר לך יותר אבל זה פרויקט ואין לי זמן להתחיל לחפור את זה.

 

מקווה שזה עוזר.

 

 

פורסם
  • מחבר

תודה עזרת לי מאוד

ארכיון

דיון זה הועבר לארכיון ולא ניתן להוסיף בו תגובות חדשות.

דיונים חדשים