Back to Question Center
0

"Chrome" žiniatinklio grandiklio pamoka iš "Semalt Expert"

1 answers:

Jei naudojate "Google Chrome", jūsų naršyklė kuri gali padėti išvalyti tinklalapius. Jis žinomas kaip "Scrapper", ir jį galima naudoti be problemų. "Scrapper" padės pašalinti svetainės turinį ir įkelti "Google" dokumentus.

Kaip nukopijuoti svetainę naudojant Scraper pratęsimą?

1. Pasirinkite "Chrome" internetinę parduotuvę "Google Chrome";

2. Išplėstiniuose žodžiais atlikite "Scrapper" paiešką;

3. Pirmasis paieškos rezultatas yra plėtinys, vadinamas "" Scrapper ";

4. Pasirinkite mygtuką, nurodytą kaip "Įtraukti į" Chrome ";

5. Grįžti į JK parlamentarų sąrašą

6. Spustelėkite ;

7. Dabar ieškokite vieno MP ir įsitikinkite, kad įrašas pažymėtas;

8. Dešiniuoju pelės klavišu spustelėkite, kad pasirinktumėte "Scrape Panaši ... "parinktis;

9. Scrapper konsolė pasirodys kitame lange;

10. Peržiūrėkite išvalytą turinį skreperiuje konsolė;

11. Norėdami užtikrinti, kad turinys būtų išsaugotas kaip "Google" skaičiuoklė, pasirinkite "Išsaugoti" Google "dokumentuose ..."

Išplėstinis surinkimas

Prieš laikydamasis šio recepto , tai naudinga suprasti HTML pagrindus. Pavyzdžiui, galite skaityti trumpą įvadą į HTML per šį nuorodą

Įsivaizduokime, kad domina visi filmai, kuriuose pavaizduota "Asia Argento" žinoma italų aktorė.

1. Yra labai išsamus archyvas aktorių IMDB. Azijos Argento svetainė yra: https://www.imdb.com/name/nm0000782/;

2. Čia galite peržiūrėti visus vaidinimus, kuriuos vaidino aktorė..Pradėkime išmesti informaciją, kurios jus domina;

3. Pabandykite išvalyti, kaip tai buvo aprašyta aukščiau;

4. Jūs pamatysite, kad sąrašas šiek tiek iškraipytas. Taip yra dėl to, kad čia esantis sąrašas gali būti struktūrizuotas skirtingai;

5. eikite į grandiklio konsolę. Iš viršaus į kairę, pamatysite nedidelę dėžutę, kuri sako XPath;

6. Xpath yra tam tikra užklausų kalba, kuri veikia XML ir HTML;

7. XPath gali padėti surasti jus dominančio puslapio dalis. Kitas dalykas yra rasti tinkamą elementą ir parašyti XPath;

8. Dabar sutvarkykim mūsų stalą;

9. Pamatysite, kad mūsų esamas XPath, kurio visi reikalingi duomenys yra "// div [3] / div [3] / div [2] / div";

10. XPath praneša sistemai, kad galėtumėte peržiūrėti HTML dokumentą ir pasirinkti trečiąjį elementą, tada antrąjį elementą, o tada visus;

11. Tačiau mes norėtume, kad duomenys būtų atskirti;

12. Naudokite stulpelių skiltį, esančią konsolėje, norint padaryti tai padaryti;

13. Pirmiausia rasime mūsų pavadinimą РІР "Use Inspect Element", kad pamatytumėte pavadinimą;

14. Patikrinkite pavadinimą žyme. Pridėti žymą į XPath;

15. Išraiška, atrodo, tinkamai funkcionuoja, todėl padarykite tai mūsų pirmąjį stulpelį;

16. Skiltyje "Stulpeliai" pirmojo stulpelio pavadinimą pakeiskite į "pavadinimas";

17. Pridėti XPath;

18. Skilčių skyriuje XPathy yra santykiniai, o tai reiškia, kad ./b pasirinks elementą

19. XPath antraštės stulpelyje pridėti "./b" ir pasirinkite "išbrėžti";

20. Dabar eikime vienerius metus. Metus galima rasti vienoje skalėje;

21. Sukurkite naują stulpelį pasirinkdami mažą pliusą šalia stulpelio savo antraštėje;

22. Naudodami XPath "./span" sukurkite "year" stulpelį;

23. Spragtelėkite ir pažiūrėkite, kaip buvo pridėti metai;

24. Atlikta!

December 6, 2017
"Chrome" žiniatinklio grandiklio pamoka iš "Semalt Expert"
Reply