R on erittäin suosittu datakaivostyöntekijöiden ja tilastotieteilijöiden keskuudessa, ja osasyynä on R:n mukana tuleva laaja kirjastovalikoima. Nämä työkalut ja funktiot voivat yksinkertaistaa tilastollisia tehtäviä suuressa määrin, mikä tekee datan manipuloinnista, visualisoinnista, web-verkkosivujen indeksoinnista, koneellisesta oppimisesta ja monista muista tehtävistä helppoa. Joitakin kirjastoja on selitetty lyhyesti alla:
dplyr
Dplyr-paketti, joka tunnetaan myös datan manipuloinnin kielioppina, tarjoaa pääasiassa usein käytettyjä työkaluja ja funktioita datan manipulointiin, joka sisältää seuraavat funktiot:
- filter(): datan suodattamiseen kriteerien perusteella
- mutate(): uusien muuttujien lisäämiseen, jotka toimivat olemassa olevien muuttujien funktioina
- select(): muuttujien valitsemiseen nimien perusteella
- summarise(): auttaa tiivistämään tiedot useista arvoista
- arrange(): rivien järjestyksen uudelleen järjestämiseen
- Lisäksi voit käyttää group_by()-funktiota, joka voi palauttaa tulokset ryhmiteltyinä vaatimusten mukaan. Jos haluat tutustua dplyr-pakettiin, voit joko hakea sen tidyversiosta tai asentaa paketin suoraan komennolla ”install.packages(”dplyr”).
tidyr
tidyr on yksi Tidyverse-ekosysteemin ydinpaketeista, ja kuten nimestä voi päätellä, sitä käytetään sotkuisten tietojen siistimiseen. Jos nyt ihmettelet, mitä siistitty data on, niin selvitän sen sinulle. Siisti data tarkoittaa, että jokainen sarake on muuttuja, jokainen rivi on havainto ja jokainen solu on yksikäsitteinen arvo.
Tidyrin mukaan siisti data on tapa tallentaa dataa, jota käytetään koko tidyverse-ohjelmassa, ja se voi auttaa sinua säästämään aikaa ja olemaan tuottavampi analyysissäsi. Paketin saa tidyverse-palvelusta tai seuraavalla komennolla ”install.packages(”tidyr”)”.
ggplot2
ggplot2 on yksi parhaista R-kirjastoista datan visualisointiin, ja tuhannet käyttäjät ympäri maailmaa käyttävät sitä aktiivisesti luodakseen kiehtovia kaavioita, graafeja ja plotteja. Syy tähän suosioon on se, että ggplot2 luotiin yksinkertaistamaan visualisointiprosessia ottamalla kehittäjältä minimaalinen panos, kuten visualisoitava data, tyyli ja käytettävät primitiivit, ja jättämällä loput kirjastolle.
Tuloksena on kuvaaja, joka esittää vaivattomasti monimutkaisia tilastoja välittömiin visualisointeihin. Jos haluat lisätä lisää muokattavuutta kaavioihisi, voit käyttää RStudion kaltaisia IDE-ohjelmia tarkempaan hallintaan. Saat ggplot2:n käyttöösi tidyverse-kokoelman kautta tai käyttämällä itsenäistä kirjastoa komennolla ”install.packages(”ggplot2″)”.
Lue tämä R-dokumentaatio tutustuaksesi ggplot2:n funktioihin-
lubridate
R on erinomainen ohjelmointikieli datatieteeseen, mutta joillakin osa-alueilla R:n käyttö voi tuntua puutteelliselta. Yksi tällainen alue on päivämäärän ja ajan käsittely. Jokainen, joka työskentelee laajasti päivämäärän ja ajan kanssa R:ssä, saattaa kokea sen sisäänrakennetut ominaisuudet hankaliksi.
Tämän ongelman voittamiseksi meillä on kätevä paketti nimeltä lubridate. Paketti ei ainoastaan käsittele R:n standardipäivämäärää ja -aikaa, vaan tarjoaa myös lisäparannuksia, kuten aikajaksot, kesäajat, karkauspäivät, tukee eri aikavyöhykkeitä, nopeaa ajan jäsentämistä ja monia apufunktioita. Jos projektisi vaatii työskentelyä ajan ja päivämäärän kanssa, voit hankkia lubridate-paketin tidyverse-palvelusta tai asentaa pelkän paketin komennolla ”install.packages(”lubridate”)”.
Lue dokumentaatio täältä:
lattice
lattice on toinen elegantti, mutta silti tehokas datan visualisointikirjasto, joka on keskittynyt monimuuttujaiseen dataan. Erityisen tästä kirjastosta tekee se, että tavanomaisten visualisointien käsittelyn lisäksi lattice on varustettu valmiiksi tuella epätyypillisiin tilanteisiin ja vaatimuksiin. Koska se on Trellis-grafiikan käytännöllinen toteutus R:lle, se mahdollistaa Trellis-grafiikoiden luomisen ja tarjoaa jopa vaihtoehtoja grafiikoiden virittämiseen tarpeidesi mukaan. lattice tulee oletusarvoisesti R:n mukana, mutta latticesta on olemassa kehittynyt versio nimeltä latticeExtra, joka saattaa tulla tarpeeseen, jos haluat laajentaa latticen tarjoamia perusominaisuuksia.
mlr
Koneoppiminen R:ssä (Machine Learning in R(mlr), on kirjasto, joka julkaistiin vuonna 2013 ja päivitettiin mlr3:ksi uudemmilla tekniikoilla, paremmalla arkkitehtuurilla ja ydinsuunnittelulla vuonna 2019. Tästä lähtien kirjasto tarjoaa kehyksen useiden luokittelujen, regression, tukivektorikoneiden ja monien muiden koneoppimistoimintojen käsittelemiseen.
mlr3 on suunnattu koneoppimisen harjoittajille ja tutkijoille helpottamaan erilaisten koneoppimisalgoritmien vertailuanalyysiä ja käyttöönottoa ilman suurempaa vaivaa. Niille, jotka haluavat laajentaa ja jopa yhdistää olemassa olevia oppijoita ja hienosäätää parasta tekniikkaa tehtävään, mlr3 on täydellinen vaihtoehto. mlr3 voidaan asentaa komennolla ”install.packages(”mlr3″)”.
Laaja valikoima funktioita mainitaan tässä –
caret
Lyhenne sanoista Classification And REgression Training (luokittelu ja regressioharjoittelu), caret-kirjasto tarjoaa useita funktioita, joiden avulla voidaan optimoida mallin harjoitteluprosessi hankalissa regressio- ja luokitteluongelmissa. caretissa on mukana useita lisätyökaluja ja -funktioita sellaisiin tehtäviin kuin datan pilkkominen (data splitting), muuttujien tärkeyden estimointi (variable importance estimation), ominaisuuksien valinta (feature selection), esikäsittely (pre-processing), ja monet muut. caretin avulla voit myös mitata mallien suorituskykyä ja jopa hienosäätää mallin käyttäytymistä käyttämällä erilaisia parametreja, kuten tuneLength tai tuneGrid, tarpeidesi mukaan. Itse paketti on helppokäyttöinen, ja se lataa vain tarvittavat komponentit mennessään. Kirjasto voidaan asentaa komennolla ”install.packages(”caret”)”.
esquisse
esquisse ei ole kirjasto sinänsä, vaan lisäosa tehokkaaseen datan visualisointikirjastoon ggplot2. Saatat ihmetellä, miksi tarvitset tätä ggplot2:n kanssa, selvitän sen sinulle. ggplot2 on jo tarpeeksi älykäs, mutta jos tarvitset lisäkerroksen intuitiivisuutta visualisointeihisi, esquisse on oikea tapa. esquisse antaa sinun yksinkertaisesti vetää ja pudottaa tarvittavat tiedot, valita halutut muokkausvaihtoehdot, ja siinä se on, räätälöity plotti, joka on rakennettu lyhyessä ajassa ja valmiina vietäväksi haluamaasi sovellukseen. Esquissen avulla voit luoda visualisointeja, kuten pylväsdiagrammeja, histogrammeja, hajontadiagrammeja, sf-objekteja. Voit lisätä esquissen ympäristöösi käyttämällä ”install.packages(”esquisse”)”.
shiny
shiny on RStudion web-sovelluskehys, jonka avulla kehittäjät voivat luoda interaktiivisia web-sovelluksia R:n avulla minimaalisella web-kehitystaustalla. Shinyn avulla voit rakentaa verkkosivuja, interaktiivisia visualisointeja, kojelautoja ja jopa upottaa widgettejä R-dokumentteihin. shiny voidaan myös helposti laajentaa CSS-teemoilla, JavaScript-toiminnoilla ja htmlwidgeteillä lisäkustomointia varten. Sen mukana tulee joukko houkuttelevia sisäänrakennettuja widgettejä R-objektien piirrosten, taulukoiden ja tulosteiden esittämiseen, ja mitä tahansa koodaatkin shinyllä, se siirtyy eloon saman tien, mikä eliminoi ärsyttävät usein toistuvat sivun päivitykset. Jos olet myyty ominaisuuksiin ja haluat kokeilla sitä, voit hankkia shinyn komennolla ”install.packages(”shiny”)”.
Rcrawler
Jos etsit työkalua, jolla voit kaapia dataa verkkosivuilta ja vieläpä ymmärrettävässä muodossa, älä etsi kauempaa, Rcrawler on oikea vaihtoehto sinulle. Rcrawlerin tehokkaiden web crawling-, data scraping- ja tiedonlouhintaominaisuuksien avulla voit paitsi ryömiä verkkosivujen läpi ja kaapia tietoja, myös analysoida minkä tahansa verkkosivuston verkkorakennetta, mukaan lukien sen sisäiset ja ulkoiset hyperlinkit. Jos mietit, miksi et käyttäisi rvestiä, Rcrawler-paketti on askel ylöspäin rvestistä, sillä se käy läpi kaikki verkkosivuston sivut ja poimii tiedot, mikä voi olla erittäin hyödyllistä, kun yrität kerätä kaikki tiedot yhdestä lähteestä ja yhdellä kertaa. Paketin voi asentaa komennolla ”install.packages(”Rcrawler”)”.
DT
DT-paketti toimii DataTables-nimisen JavaScript-kirjaston kääreenä R:lle. DT:n avulla voit muuttaa R-matriisin tiedot interaktiiviseksi taulukoksi HTML-sivullasi, mikä helpottaa tietojen helppoa etsimistä, lajittelua ja suodattamista. Paketti toimii siten, että pääfunktio eli datatable()-funktio luo HTML-widgetin R-objekteille. DT mahdollistaa lisähienosäätöä ”options”-argumenttien avulla ja jopa jonkin verran lisää muokattavuutta taulukoillesi, ja kaikki tämä ilman syvälle koodaukseen menemistä. DT-paketin voi asentaa komennolla ”install.packages(”DT”)”.
plotly
Jos haluat luoda interaktiivisia visualisointeja, jotka varastavat show’n, plotly olisi täydellinen sinulle. Plotlyn avulla voit luoda upeita, julkaisukelpoisia visualisointeja monipuolisesta kokoelmasta kaavioita ja graafeja, kuten hajonta- ja viivadiagrammeja, pylväsdiagrammeja, piirakkadiagrammeja, histogrammeja, lämpökarttoja, ääriviivapiirroksia, aikasarjoja, sano vain, mitä haluat, ja plotly osaa tehdä sen. plotly.js-kirjaston päälle rakennetut plotly-visualisoinnit voidaan näyttää myös verkkosovelluksissa Dashin kautta, Jupyter Notebooksissa tai tallentaa HTML-tiedostoina. Jos olet kiinnostunut kokeilemaan pakettia, voit asentaa sen komennolla ”install.packages(”plotly”)”.
Muut arvokkaat R-kirjastot –
- BioConductor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- data.table
- RMarkdown
- Rvest