Back to Question Center
0

"Semalt" sukuria "URLitor" - labai gera "Web scraping" ir duomenų ištraukimo priemonė

1 answers:

URLitor - tai nauja, bet veiksminga žiniatinklio šveitimo ir duomenų ištraukimo priemonė. Jei norite naudoti "URLitor", tiesiog pridėkite visų pateiktų šablonų sąrašą visų URL, kurių turinį norite nuskaityti internete. Tada turėsite nurodyti HTML elementą, kurį norite ištraukti iš tinklalapių, ir spustelėkite mygtuką "Siųsti". Tai taip pat lengva. Naudodami šį įrankį nebūtina kopijuoti arba įklijuoti iš naršyklės.

"xPath" yra kalba, kuri naudojama siekiant ieškoti informacijos XML bylose. Jis naudoja tam tikras išraiškas, norėdamas rinktis mazgų rinkinius ar mazgus XML bylose. Išraiškos, kurias supranta "XPath", yra gana panašios į tuos, kurie naudojami įprastų kompiuterinių failų ar dokumentų.

Nors XPath yra naudojamas su keliomis programavimo kalbomis, šis įrankis sukurtas tiems vartotojams, kurie neturi programavimo žinių. Taigi, jums nereikia būti programuotoju, kad jį panaudotumėte. Naudodami šį įrankį galite išgauti duomenis iš kelių HTML ir XML puslapių.

Naudojimo paprastumui kelis dažnai naudojamas XPath išraiškas buvo iš anksto apibrėžtos išskleidžiamame meniu, todėl naudotojams reikės pasirinkti tik vieną iš jų, priklausomai nuo jų tikslo. Tačiau labai patyrę XPath vartotojai gali laisvai naudoti savo pasirinktines išraiškas, kai tik to nori..

Įrankis buvo suprojektuotas su 100 URL vienu raktų surinkimo seanso metu, o vienu metu galima gauti ne daugiau kaip 10 frazių. Kitaip tariant, jis gali ištrinti duomenis ne daugiau kaip iš 100 URL vienu metu.

Kai kurios svarbios XPath pasirinktines išraiškos, kurios gali būti pakeistos ar pridėtos, buvo išdėstytos žemiau:

1. // div [2] - Ši frazė hierarchiškai atrenka antrąjį div;

2. // link [@ rel = 'canonical'] / @ href - ši frazė parenka žymos vietą (ref), naudojamą nustatyti rel atributą, lygų kanoninę;

3. / html / head / meta [@ name = 'description'] / @ content - Ši frazė naudojama turinio pasirinkimui;

4. // * [@ class = 'class-name'] - galite naudoti šią išraišką, norėdami pasirinkti visus elementus su "class-name" CSS klasė;

5. // h2 | // pavadinimas - šią išraišką galima naudoti norint pasirinkti pirmąjį H2 ir puslapio pavadinimą;

6. // * [name

= 'h1' arba name

= 'title'] - Ši frazė veikia taip, kaip nurodyta pirmiau. Tačiau aukščiau pateikta išraiška yra geresnė, nes ji yra trumpesnė;

7. // * [yra (@ class, 'thumb')] - Ši frazė parenka kiekvieną elementą, turinčią CSS klasę, taip pat yra "nykščio" ekstrahuoti;

8. // parent :: * [text

= 'Sveiki atvykę'] - Šis žodis parenka bet kurio elemento, kurio tekstas yra " ";

Šis įrankis yra beta versijos versija ir vis tiek gali būti susijusi su kai kuriomis klaidomis. Tačiau vis dar yra puikus įrankis vartotojams, turintiems mažai programavimo žinių arba neturi jų, nes visos dažniausiai vartojamos išraiškos buvo iš anksto apibrėžtos anksčiau minėtame meniu.

December 7, 2017
"Semalt" sukuria "URLitor" - labai gera "Web scraping" ir duomenų ištraukimo priemonė
Reply