Back to Question Center
0

Semalt - Kaip ištrinti tinklalapius?

1 answers:

Gražus sriuba yra "Python" biblioteka, kuri dažnai naudojama tinklalapių nykimui, iš XML ir HTML dokumentų. "Web scraping" - duomenų iš svetainių ir puslapių ištraukimo technika yra plačiai naudojama duomenų analizės ir valdymo srityse. Daugeliu atvejų Python programavimo kalba yra būtina duomenų mokslo sąlyga.

Python 3 turi grandymo įrankius ir modulius, kuriuos galite taikyti savo duomenų valdymo projektui. Šiuo metu veikia kaip "Beautiful Soup 4", šis modulis yra suderinamas su "Python 3" ir "Python 2" - bar and bar stools for sale. 7. Gražus sriubos 4 modulis taip pat gali sukurti neuždaromos žymų srities paruošimo medį. Šiame vadove sužinosite, kaip išvalyti puslapį ir parašyti įstrigusius duomenis į CSV failą.

Pradžia

Norėdami pradėti, kompiuteryje nustatykite serverį arba vietinę Python kodavimo aplinką. Taip pat turite įdiegti "Beautiful Soup and Requests" modulį savo kompiuteryje. Žinoma, kad dirbti su abiem moduliais taip pat yra būtina sąlyga. Susipažinimas su HTML žymėjimu ir struktūra taip pat yra papildomas pranašumas.

Jūsų duomenų supratimas

Atsižvelgiant į tai, realūs Nacionalinės meno galerijos duomenys bus naudojami, kad padėtų jums suprasti, kaip naudotis "Beautiful Soup 4". Nacionalinė meno galerija - tai 120 000 vienetų, kuriuos sudaro maždaug 13 000 atlikėjų. Menas yra įsikūręs Vašingtone D. C, Jungtinės Valstijos.

Interneto duomenų ištraukimas su Gražios sriuba yra ne taip sudėtinga. Pavyzdžiui, jei sutelksite dėmesį į raidę Z, pažymėkite ir įrašykite vardą sąraše. Šiuo atveju vardas yra Zabaglia, Niccola. Siekiant nuoseklumo, nurodykite puslapių skaičių ir paskutinio atlikėjo pavadinimą toje svetainėje.

Kaip importuoti prašymus ir Gražios sriubos biblioteką

Norėdami importuoti bibliotekas, suaktyvinkite savo "Python 3" programavimo aplinką. Patikrinkite, ar esate toje pačioje kataloge, kuriame yra jūsų programavimo aplinka. Norėdami pradėti, paleiskite šią komandą. my_env / bin / aktyvuoti.

Sukurkite naują failą ir pradėkite importuoti Gražios sriubos ir prašo bibliotekų. Užklausų biblioteka leis jums naudoti HTTP per jūsų "Python" programas skaitytuose formatuose. Kita vertus, gražus sriubos darbas greitai išvalo puslapius. Naudokite bs4 importuoti gražią sriuba.

Kaip surinkti ir analizuoti tinklalapį

Naudodamiesi užklausomis surinkite savo pirmojo puslapio URL. Pirmojo puslapio URL bus priskirtas kintamojo puslapiui. Sukurkite "BeautifulSoup" objektą iš "Requests" ir analizuokite objektą iš "Python" analizatoriaus.

Šioje pamokoje tikslas yra surinkti nuorodas ir menininkų vardus. Pavyzdžiui, galite surinkti menininkų datas ir tautybes. "Windows" vartotojams dešiniuoju pelės mygtuku spustelėkite menininko vardą. Tokiu atveju naudokite "Zabaglia", "Niccola". "Mac OS" naudotojams bakstelėkite "CTRL" ir spustelėkite pavadinimą. Jei norite pasiekti žiniatinklio kūrėjų įrankius, spustelėkite ekrano iššokančiuosius langus "Inspection Element". Spausdinkite menininko pavadinimus, kad "Beautiful Soup" greitai paruoštų medį.

Apatinės juostos pašalinimas

Norėdami pašalinti apatines nuorodas į savo tinklalapį, patikrinkite DOM, paspaudę dešinįjį pelės mygtuką ant elemento. Jūs nustatysite, kad nuorodos yra pagal HTML lentelę. Naudojant gražią sriuba, naudokite "skaidymosi metodą", kad pašalintumėte žymas iš analizuojamo medžio.

Kaip ištraukti turinį iš žymos

Jums nereikia spausdinti visos nuorodų žymos, naudokite "Beautiful Soup", jei norite pašalinti medžiagą iš žymų. Taip pat galite užfiksuoti URL, susijusių su atlikėjais, naudodami "Beautiful Soup 4".

CSR failo

užfiksuoti įstrigę duomenys

CSV failas leis jums išsaugoti struktūrizuotus duomenis paprastu tekstu, kuris dažniausiai naudojamas duomenų lapams. Rekomenduojama žinoti, kaip tvarkyti paprastus tekstinius failus "Python".

Internetinių duomenų ištraukimas naudojamas lapų nuskaitymui ir informacijos gavimas. Atkreipkite dėmesį į žiniatinklio svetaines, iš kurių gaunate informaciją. Kai kurios dinaminės svetainės riboja žiniatinklio duomenų ištraukimą jų svetainėse. Norėdami suplėšyti puslapį su "Beautiful Soup" ir "Python 3", tai paprasta.

December 22, 2017