Aloittajan opas Semalt-verkkosivulta

Verkon tiedot kasvavat päivä päivältä. Nykyään suurin osa ihmisistä käyttää Googlea ensisijaisena tietolähteenä, etsivätkö ne sitten yritystä koskevia arvosteluita tai ymmärtävät uutta termiä.

Koska verkossa on paljon tietoja, se avaa tietotekijöille paljon mahdollisuuksia. Valitettavasti suurin osa verkkotiedoista ei ole helposti saatavilla. Se esitetään jäsentämättömässä muodossa, johon viitataan HTML-muodossa, jota ei voi ladata. Siksi sen käyttäminen vaatii tietotekijän tiedon ja asiantuntemuksen.

Web-kaavinta on prosessi, jolla HTML-muodossa olevat tiedot muunnetaan jäsenneltyyn muotoon, johon pääsee helposti ja jota voidaan käyttää. Lähes kaikkia ohjelmointikieliä voidaan käyttää verkkojen asianmukaiseen romuttamiseen. Käytämme tässä artikkelissa kuitenkin R-kieltä.

Tietoja voidaan kaadata verkosta useilla tavoilla. Joitakin suosituimpia ovat:

1. Ihmisen kopiointi-liitä

Tämä on hidas, mutta erittäin tehokas tekniikka tietojen kaavuttamiseen verkosta. Tässä tekniikassa henkilö analysoi tiedot itse ja kopioi sen sitten paikalliseen tallennustilaan.

2. Tekstikuvion vastaavuus

Tämä on toinen yksinkertainen, mutta tehokas tapa poimia tietoja verkosta. Se vaatii ohjelmointikielten säännöllisten lausekesovitustoimintojen käytön.

3. API-rajapinta

Monet verkkosivustot, kuten Twitter, Facebook, LinkedIn, jne. Tarjoavat sinulle julkisia tai yksityisiä sovellusliittymiä, joita voidaan kutsua käyttämällä vakiokoodeja tietojen hakemiseksi määrätyssä muodossa.

4. DOM-jäsennys

Huomaa, että jotkut ohjelmat voivat hakea asiakaspuolen komentosarjojen luomaa dynaamista sisältöä. Sivut on mahdollista jäsentää DOM-puuksi, joka perustuu ohjelmiin, joita voit käyttää joidenkin näiden sivujen osien hakemiseen.

Ennen kuin aloitat verkkokaapimisen R: ssä, sinulla on oltava perustiedot R: stä. Jos olet aloittelija, on monia hyviä lähteitä, jotka voivat auttaa. Sinun on myös tunnettava HTML ja CSS. Koska useimmat tietotieteilijät eivät ole kovinkaan tietoisia HTML: n ja CSS: n teknisestä tuntemuksesta, voit käyttää avointa ohjelmistoa, kuten Selector Gadget.

Jos esimerkiksi kaavittaa tietoja IMDB-verkkosivustolla tietyllä ajanjaksolla julkaistuista 100 suosituimmasta elokuvasta, sinun on kaapattava sivustolta seuraavat tiedot: kuvaus, ajonaika, tyylilaji, luokitus, äänet, bruttoansiot, ohjaaja ja valettu. Kun olet romuttanut tiedot, voit analysoida niitä eri tavoin. Voit esimerkiksi luoda useita mielenkiintoisia visualisointeja. Nyt kun sinulla on yleinen käsitys siitä, mikä on tietojen romutus, voit kiertää sen!