R er ekstremt populært blandt dataminearbejdere og statistikere, og en del af årsagen er det omfattende udvalg af biblioteker, der følger med R. Disse værktøjer og funktioner kan forenkle statistiske opgaver i høj grad og gøre opgaver som datamanipulation, visualisering, webcrawling, maskinlæring og meget mere til en leg. Nogle af bibliotekerne er kort forklaret nedenfor:
dplyr
Dplyr-pakken, også kendt som datamanipulationens grammatik, indeholder i det væsentlige hyppigt anvendte værktøjer og funktioner til datamanipulation, der omfatter følgende funktioner:
- filter(): til filtrering af dine data baseret på kriterierne
- mutate(): til at tilføje nye variabler, der fungerer som funktioner af eksisterende variabler
- select(): til at vælge variabler baseret på navnene
- summarise(): hjælper med at opsummere dataene ud fra flere værdier
- arrange(): til at omarrangere rækkefølgen
- Dertil kommer, at du kan bruge funktionen group_by(), som kan returnere resultaterne grupperet i henhold til kravene. Hvis du er ivrig efter at tjekke dplyr-pakken, kan du enten hente den fra tidyverse eller installere pakken direkte med kommandoen “install.packages(“dplyr”)”.
tidyr
tidyr er en af kernepakkerne i Tidyverse-økosystemet, og som navnet antyder, bruges den til at rydde op i rodet data. Hvis du nu undrer dig over, hvad ryddelige data er, så lad mig opklare det for dig. Et ryddeligt data angiver, at hver kolonne er variabel, hver række er en observation, og hver celle er en enkelt værdi.
I henhold til tidyr er ryddelige data en måde at lagre de data på, som skal bruges i hele tidyverse, og kan hjælpe dig med at spare tid og være mere produktiv med din analyse. Du kan hente pakken fra tidyverse eller ved følgende kommando “install.packages(“tidyr”)”.”
ggplot2
ggplot2 er blandt de bedste R-biblioteker til datavisualisering og bruges aktivt af tusindvis af brugere over hele verden til at skabe overbevisende diagrammer, grafer og plots. Årsagen til denne popularitet er, at ggplot2 blev skabt for at forenkle visualiseringsprocessen ved at tage minimalt input fra udvikleren, såsom de data, der skal visualiseres, stilen og de primitiver, der skal bruges, mens resten overlades til biblioteket.
Resultatet er en graf, der ubesværet præsenterer komplekse statistikker til øjeblikkelige visualiseringer. Hvis du ønsker at tilføje flere tilpasningsmuligheder til dine diagrammer, kan du bruge IDE’er som RStudio til mere granulær kontrol. Du kan få fingrene i ggplot2 via tidyverse-samlingen eller ved at bruge det selvstændige bibliotek via kommandoen “install.packages(“ggplot2″)”.
Læs denne R-dokumentation for at få kendskab til ggplot2-funktioner-
lubridate
R er et fremragende programmeringssprog til datalogi, men der er visse områder, hvor R kan føles ufuldstændigt. Et af disse områder er håndteringen af dato og tid. For alle, der arbejder meget med dato og tid i R, kan finde dets indbyggede muligheder besværlige.
For at overvinde dette, har vi en praktisk pakke kaldet lubridate. Pakken håndterer ikke kun standarddato og -tid i R, men tilbyder også yderligere forbedringer såsom tidsperioder, sommertid, skuddage, understøtter forskellige tidszoner, hurtig parsing af tid og mange hjælpefunktioner. Hvis dit projekt kræver, at du skal arbejde med tid og dato, kan du hente lubridate-pakken fra tidyverse eller installere bare pakken med kommandoen “install.packages(“lubridate”)”.
Læs dokumentationen her:
lattice
lattice er et andet elegant, men kraftfuldt datavisualiseringsbibliotek med fokus på multivariate data. Det, der gør dette bibliotek specielt, er, at lattice ud over at håndtere de almindelige visualiseringer også kommer forberedt med støtte til ikke-standardiserede situationer og krav. Da det er den praktiske implementering af Trellis-grafik til R, giver det dig mulighed for at oprette Trellis-grafer og tilbyder endda muligheder for at indstille graferne i henhold til dine krav. lattice leveres med R som standard, men der findes en avanceret version af lattice kaldet latticeExtra, som kan være praktisk, hvis du ønsker at udvide de kernefunktioner, som lattice leverer.
mlr
Machine Learning in R(mlr), er et bibliotek, der blev udgivet i 2013 og blev opdateret til mlr3 med nyere teknikker, en bedre arkitektur og et bedre kernedesign i 2019. Fra nu af giver biblioteket en ramme til at håndtere flere klassifikationer, regression, supportvektormaskiner og mange andre Machine Learning-aktiviteter.
mlr3 er målrettet mod Machine Learning-praktikere og forskere for at lette benchmarking og implementering af forskellige Machine Learning-algoritmer uden meget besvær. For dem, der ønsker at udvide og endda kombinere de eksisterende lærere og finjustere den bedste teknik til en opgave, vil mlr3 være en perfekt mulighed. mlr3 kan installeres ved hjælp af kommandoen “install.packages(“mlr3″)”.
Den brede vifte af funktioner er nævnt her –
caret
Som forkortelse for Classification And REgression Training indeholder caret-biblioteket adskillige funktioner til optimering af processen med modeltræning til vanskelige regressions- og klassifikationsproblemer. caret leveres med adskillige ekstra værktøjer og funktioner til opgaver som dataopdeling, vurdering af variabel betydning, valg af funktioner, forbehandling og mange flere. Med caret kan du også måle modellernes ydeevne og endda finjustere modellens adfærd ved hjælp af forskellige parametre som tuneLength eller tuneGrid i overensstemmelse med dine behov. Selve pakken er nem at bruge og indlæser kun de nødvendige komponenter efterhånden. Biblioteket kan installeres med kommandoen “install.packages(“caret”)”.”
esquisse
esquisse er ikke et bibliotek i sig selv, men et addin til det kraftfulde datavisualiseringsbibliotek ggplot2. Du undrer dig måske over, hvorfor du skulle have brug for dette med ggplot2, lad mig afklare det for dig. ggplot2 er allerede smart nok, men hvis du har brug for et ekstra lag af intuition til dine visualiseringer, er esquisse den rigtige vej at gå. esquisse giver dig mulighed for blot at trække og slippe de nødvendige data, vælge de ønskede tilpasningsmuligheder, og så har du det, et skræddersyet plot bygget inden for en kort periode og klar til at eksportere til dit foretrukne program. Med esquisse kan du oprette visualiseringer som f.eks. søjlediagrammer, histogrammer, scatterplots, sf-objekter. Du kan tilføje esquisse til dit miljø ved hjælp af “install.packages(“esquisse”)”.
shiny
shiny er en webapplikationsramme fra RStudio, der giver udviklerne mulighed for at skabe interaktive webapplikationer ved hjælp af R med minimal baggrund for webudvikling. Med shiny kan du bygge websider, interaktive visualiseringer, dashboards og endda indlejre widgets i R-dokumenter. shiny kan også nemt udvides med CSS-temaer, JavaScript-handlinger og htmlwidgets for at opnå yderligere tilpasning. Den leveres med et væld af attraktive indbyggede widgets til præsentation af plot, tabeller og output af R-objekter, og hvad du koder i shiny går live samme øjeblik, hvilket eliminerer de irriterende hyppige sideopdateringer. Hvis du er overbevist om funktionerne og ønsker at give det et skud, kan du få shiny ved hjælp af kommandoen “install.packages(“shiny”)”.
Rcrawler
Hvis du leder efter et værktøj til at skrabe data fra websteder, og det også i et forståeligt format, skal du ikke lede længere, Rcrawler er den rigtige løsning for dig. Med Rcrawlers kraftfulde muligheder for webcrawling, dataskrabning og datamining kan du ikke kun kravle gennem websteder og skrabe data, men også analysere netværksstrukturen på ethvert websted, herunder dets interne og eksterne hyperlinks. Hvis du undrer dig over, hvorfor du ikke bruger rvest, er Rcrawler-pakken et skridt opad i forhold til rvest, da den gennemgår alle siderne på et websted og uddrager dataene, hvilket kan være yderst nyttigt, når du forsøger at indsamle alle oplysninger fra én kilde og på én gang. Pakken kan installeres med kommandoen “install.packages(“Rcrawler”)”.
DT
Den DT-pakke fungerer som en indpakning af JavaScript-biblioteket kaldet DataTables, til R. DT giver dig mulighed for at omdanne dataene i din R-matrix til en interaktiv tabel på din HTML-side, hvilket letter nem søgning, sortering og filtrering af data. Pakken fungerer ved at lade hovedfunktionen, dvs. datatable()-funktionen, oprette en HTML-widget for R-objekterne. DT giver mulighed for yderligere finjustering via “options”-argumenterne og endda nogle yderligere tilpasningsmuligheder til dine tabeller, alt dette uden at gå dybt ned i kodningen. DT-pakken kan installeres ved hjælp af kommandoen “install.packages(“DT”)”.”
plotly
Hvis du ønsker at skabe interaktive visualiseringer, der stjæler opmærksomheden, vil plotly være perfekt for dig. Med Plotly kan du oprette fantastiske, publikationsværdige visualiseringer fra en forskelligartet samling af diagrammer og grafer, f.eks. sprednings- og linjediagrammer, søjlediagrammer, cirkeldiagrammer, histogrammer, heatmaps, konturdiagrammer, tidsserier, du kan lave det, og plotly kan lave det. Pl plotly-visualiseringer er bygget oven på plotly.js-biblioteket og kan også vises i webapplikationer via Dash, i Jupyter Notebooks eller gemmes som HTML-filer. Hvis du er interesseret i at afprøve pakken, kan du installere den ved hjælp af kommandoen “install.packages(“plotly”)”.
Andre værdiskabende R-biblioteker –
- BioConductor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- data.table
- RMarkdown
- Rvest