R är extremt populärt bland dataminnare och statistiker, och en del av anledningen är det omfattande utbudet av bibliotek som ingår i R. Dessa verktyg och funktioner kan förenkla statistiska uppgifter i stor utsträckning, vilket gör uppgifter som datamanipulering, visualisering, webbcrawling, maskininlärning med mera till en barnlek. Några av biblioteken har förklarats kortfattat nedan:
dplyr
Paketet dplyr, även känt som datamanipuleringens grammatik, tillhandahåller i huvudsak ofta använda verktyg och funktioner för datamanipulering, som inkluderar följande funktioner:
- filter(): för att filtrera dina data baserat på kriterierna
- mutate(): för att lägga till nya variabler som fungerar som funktioner för befintliga variabler
- select(): för att välja variabler baserat på namnen
- summarise(): hjälper till att sammanfatta data från flera värden
- arrange(): för att ändra ordningsföljden på raderna
- Det går dessutom att använda funktionen group_by(), som kan returnera resultaten grupperade enligt kraven. Om du är sugen på att testa dplyr-paketet kan du antingen hämta det från tidyverse eller installera paketet direkt med kommandot ”install.packages(”dplyr”).
tidyr
tidyr är ett av kärnpaketen i ekosystemet Tidyverse, och som namnet antyder används det för att städa upp röriga data. Om du nu undrar vad ordnade data är, låt mig klargöra det för dig. En ordnad data anger att varje kolumn är variabel, varje rad är en observation och varje cell är ett singulärt värde.
Enligt tidyr är ordnad data ett sätt att lagra data som ska användas i hela tidyverse och som kan hjälpa dig att spara tid och bli mer produktiv med din analys. Du kan hämta paketet från tidyverse eller genom följande kommando ”install.packages(”tidyr”)”.
ggplot2
ggplot2 är bland de bästa R-biblioteken för datavisualisering och används aktivt av tusentals användare runt om i världen för att skapa övertygande diagram, grafer och plotts. Anledningen till denna popularitet är att ggplot2 skapades för att förenkla visualiseringsprocessen genom att ta minimal inmatning från utvecklaren, t.ex. vilka data som ska visualiseras, vilken stil och vilka primitiver som ska användas, medan resten överlåts på biblioteket.
Resultatet är ett diagram som utan ansträngning presenterar komplex statistik för omedelbara visualiseringar. Om du vill lägga till mer anpassningsmöjligheter till dina diagram kan du använda IDE:er som RStudio för mer detaljerad kontroll. Du kan få tag på ggplot2 via tidyverse-samlingen eller genom att använda det fristående biblioteket via kommandot ”install.packages(”ggplot2″)”.
Läs den här R-dokumentationen för att få information om ggplot2-funktioner-
lubridate
R är ett utmärkt programmeringsspråk för datavetenskap, men det finns vissa områden där R kan kännas ofullständig. Ett sådant område är hanteringen av datum och tid. För den som arbetar mycket med datum och tid i R, kan finna dess inbyggda möjligheter besvärliga.
För att övervinna detta har vi ett praktiskt paket som heter lubridate. Paketet hanterar inte bara standarddatum och -tid i R, utan erbjuder även ytterligare förbättringar såsom tidsperioder, sommartid, skottdagar, stöd för olika tidszoner, snabb tidsparsning och många hjälpfunktioner. Om ditt projekt kräver att du arbetar med tid och datum kan du hämta lubridate-paketet från tidyverse eller installera bara paketet med kommandot ”install.packages(”lubridate”)”.
Läs dokumentationen här:
lattice
lattice är ett annat elegant men ändå kraftfullt datavisualiseringsbibliotek med fokus på multivariata data. Det som gör det här biblioteket speciellt är att lattice, förutom att hantera de vanliga visualiseringarna, också är förberett med stöd för icke-standardiserade situationer och krav. På grund av att det är den praktiska implementeringen av Trellis-grafik för R, låter det dig skapa Trellis-grafer och erbjuder till och med alternativ för att justera graferna enligt dina krav. lattice levereras med R som standard, men det finns en avancerad version av lattice kallad latticeExtra, som kan komma väl till pass om du vill utöka kärnfunktionerna som tillhandahålls av lattice.
mlr
The Machine Learning in R(mlr), är ett bibliotek som släpptes 2013 och uppdaterades till mlr3 med nyare tekniker, en bättre arkitektur och kärndesign 2019. Från och med nu erbjuder biblioteket ett ramverk för att hantera flera klassificeringar, regression, stödvektormaskiner och många andra maskininlärningsaktiviteter.
mlr3 riktar sig till maskininlärningsutövare och forskare för att underlätta benchmarking och implementering av olika maskininlärningsalgoritmer utan mycket krångel. För dem som vill utöka och till och med kombinera de befintliga lärarna och finjustera den bästa tekniken för en uppgift kommer mlr3 att vara ett perfekt alternativ. mlr3 kan installeras med hjälp av kommandot ”install.packages(”mlr3″)”.
Det breda utbudet av funktioner nämns här –
caret
Som förkortning för Classification And REgression Training erbjuder biblioteket caret flera funktioner för att optimera processen för modellträning för knepiga regressions- och klassificeringsproblem. caret levereras med flera ytterligare verktyg och funktioner för uppgifter som uppdelning av data, uppskattning av variablernas betydelse, val av funktioner, förbehandling och många fler. Med caret kan du också mäta modellernas prestanda och även finjustera modellens beteende genom att använda olika parametrar som tuneLength eller tuneGrid enligt dina krav. Själva paketet är lätt att använda och laddar bara de nödvändiga komponenterna efter hand. Biblioteket kan installeras med kommandot ”install.packages(”caret”)”.
esquisse
esquisse är inte ett bibliotek i sig, utan ett tillägg för det kraftfulla biblioteket för datavisualisering ggplot2. Du kanske undrar varför du skulle behöva detta med ggplot2, låt mig klargöra det för dig. ggplot2 är redan tillräckligt smart, men om du behöver ytterligare ett lager av intuition för dina visualiseringar är esquisse rätt väg att gå. esquisse låter dig helt enkelt dra och släppa de data som krävs, välj önskade anpassningsalternativ och där har du det, en skräddarsydd plot som byggs på kort tid och som är redo att exporteras till ditt valfria program. Med esquisse kan du skapa visualiseringar som stapeldiagram, histogram, spridningsdiagram, sf-objekt. Du kan lägga till esquisse i din miljö genom att använda ”install.packages(”esquisse”)”.
shiny
shiny är ett ramverk för webbapplikationer från RStudio som gör det möjligt för utvecklare att skapa interaktiva webbapplikationer med hjälp av R med minimal bakgrund inom webbutveckling. Med shiny kan du bygga webbsidor, interaktiva visualiseringar, instrumentpaneler och till och med bädda in widgetar på R-dokument. shiny kan också enkelt utökas med CSS-teman, JavaScript-åtgärder och htmlwidgets för ökad anpassning. Den levereras med en mängd attraktiva inbyggda widgetar för att presentera diagram, tabeller och utdata från R-objekt, och vad du än kodar i shiny går live i samma ögonblick, vilket eliminerar de irriterande frekventa siduppdateringarna. Om du är såld på funktionerna och vill ge det en chans kan du få shiny genom att använda kommandot ”install.packages(”shiny”)”.
Rcrawler
Om du letar efter ett verktyg för att skrapa data från webbplatser och det dessutom i ett begripligt format, behöver du inte leta längre, Rcrawler är rätt alternativ för dig. Med Rcrawlers kraftfulla funktioner för webbcrawling, dataskrapning och datautvinning kan du inte bara krypa igenom webbplatser och skrapa data, utan även analysera nätverksstrukturen på en webbplats, inklusive dess interna och externa hyperlänkar. Om du undrar varför du inte använder rvest så är Rcrawler-paketet ett steg högre än rvest eftersom det går igenom alla sidor på en webbplats och extraherar data, vilket kan vara till stor hjälp när du försöker samla all information från en källa och i ett svep. Paketet kan installeras med kommandot ”install.packages(”Rcrawler”)”.
DT
Det DT-paketet fungerar som en omslagsform av JavaScript-biblioteket DataTables för R. DT gör det möjligt att omvandla data i din R-matris till en interaktiv tabell på din HTML-sida, vilket underlättar enkel sökning, sortering och filtrering av data. Paketet fungerar genom att låta huvudfunktionen, dvs. funktionen datatable(), skapa en HTML-widget för R-objekten. DT tillåter ytterligare finjustering via argumenten ”options” och även ytterligare anpassningsmöjligheter för dina tabeller, allt detta utan att du behöver gå djupt in i kodningen. DT-paketet kan installeras med kommandot ”install.packages(”DT”)”.
plotly
Om du vill skapa interaktiva visualiseringar som stjäl showen skulle plotly vara perfekt för dig. Med Plotly kan du skapa fantastiska, publikationsvärda visualiseringar från en varierad samling diagram och grafer, till exempel spridnings- och linjediagram, stapeldiagram, cirkeldiagram, histogram, värmekartor, konturdiagram, tidsserier, du kan göra det och Plotly kan göra det. Plotly-visualiseringar, som bygger på biblioteket plotly.js, kan också visas i webbapplikationer via Dash, i Jupyter Notebooks eller sparas som HTML-filer. Om du är intresserad av att prova paketet kan du installera det med kommandot ”install.packages(”plotly”)”.
Andra värda R-bibliotek –
- BioConductor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- data.table
- RMarkdown
- Rvest