R is zeer populair onder Data Miners en Statistici, en een deel van de reden is de uitgebreide reeks bibliotheken die met R wordt geleverd. Deze tools en functies kunnen statistische taken sterk vereenvoudigen, waardoor taken zoals datamanipulatie, visualisatie, web crawling, Machine Learning en meer, een koud kunstje worden. Enkele van de bibliotheken zijn hieronder kort toegelicht:
dplyr
Het dplyr-pakket, ook bekend als de grammatica van gegevensmanipulatie, biedt in wezen veelgebruikte hulpmiddelen en functies voor gegevensmanipulatie, die de volgende functies omvat:
- filter(): voor het filteren van uw gegevens op basis van de criteria
- mutate(): om nieuwe variabelen toe te voegen die fungeren als functies van bestaande variabelen
- select(): voor het selecteren van variabelen op basis van de namen
- summarise(): helpt bij het samenvatten van de gegevens uit meerdere waarden
- arrange(): voor het herschikken van de volgorde van de rijen
- U kunt bovendien de functie group_by() gebruiken, waarmee u de resultaten gegroepeerd volgens de vereisten kunt retourneren. Als u het dplyr-pakket wilt uitproberen, kunt u het van de tidyverse halen of het pakket rechtstreeks installeren met het commando “install.packages(“dplyr”).
tidyr
tidyr is een van de kernpakketten in het Tidyverse ecosysteem, en zoals de naam al doet vermoeden, wordt het gebruikt om rommelige gegevens op te ruimen. Nu, als je je afvraagt wat opgeruimde gegevens zijn, laat me het voor je verduidelijken. Een opgeruimde gegevens geeft aan dat elke kolom variabel is, elke rij is een waarneming, en elke cel is een enkelvoudige waarde.
Volgens tidyr is opgeruimde gegevens een manier om de gegevens op te slaan die in het hele tidyverse moeten worden gebruikt en u kunnen helpen tijd te besparen en productiever te zijn met uw analyse. U kunt het pakket krijgen van tidyverse of door het volgende commando “install.packages(“tidyr”)”.
ggplot2
ggplot2 behoort tot de top R bibliotheken voor data visualisatie en wordt actief gebruikt door duizenden gebruikers over de hele wereld om meeslepende grafieken, diagrammen en plots te maken. De reden achter deze populariteit is dat ggplot2 is gemaakt om het visualisatieproces te vereenvoudigen door minimale input van de ontwikkelaar, zoals de te visualiseren gegevens, de stijl en de te gebruiken primitieven, terwijl de rest aan de bibliotheek wordt overgelaten.
Het resultaat is een grafiek die moeiteloos complexe statistieken presenteert voor directe visualisaties. Als je je grafieken meer naar je hand wilt zetten, kun je IDE’s als RStudio gebruiken voor meer granulaire controle. U kunt ggplot2 verkrijgen via de tidyverse collectie of door de standalone bibliotheek te gebruiken via het commando “install.packages(“ggplot2″)”.
Lees deze R documentatie om meer te weten te komen over ggplot2 functies-
lubridate
R is een uitstekende programmeertaal voor Data Science, maar er zijn bepaalde gebieden waar R onvolledig kan aanvoelen. Een van die gebieden is het omgaan met datum en tijd. Iedereen die veel met datum en tijd werkt in R, kan de ingebouwde mogelijkheden omslachtig vinden.
Om dit te ondervangen, hebben we een handig pakket genaamd lubridate. Het pakket behandelt niet alleen de standaard datum en tijd in R, maar biedt ook extra uitbreidingen zoals tijdperioden, zomertijd, schrikkeldagen, ondersteunt verschillende tijdzones, snelle tijd parsing, en vele helper functies. Mocht het voor uw project nodig zijn om met tijd en datum te werken, dan kunt u het lubridate pakket van tidyverse krijgen of alleen het pakket installeren met “install.packages(“lubridate”)” commando.
Lees de documentatie hier:
lattice
lattice is een andere elegante maar krachtige data visualisatie bibliotheek gericht op multivariate data. Wat deze bibliotheek speciaal maakt, is dat naast de reguliere visualisaties, lattice ook voorbereid is met ondersteuning voor niet-standaard situaties en vereisten. Omdat het de praktische implementatie is van Trellis graphics voor R, kunt u Trellis-grafieken maken en biedt het zelfs opties om de grafieken aan uw eisen aan te passen. lattice wordt standaard met R geleverd, maar er is een geavanceerde versie van lattice genaamd latticeExtra, die van pas kan komen in het geval dat u de kernfuncties van lattice wilt uitbreiden.
mlr
The Machine Learning in R(mlr), is een bibliotheek die werd uitgebracht in 2013 en werd bijgewerkt tot mlr3 met nieuwere technieken, een betere architectuur, en kernontwerp in 2019. Vanaf nu biedt de bibliotheek een kader om verschillende classificaties, regressie, support vector machines en vele andere Machine Learning-activiteiten aan te pakken.
mlr3 is gericht op Machine Learning-beoefenaars en onderzoekers om het benchmarken en inzetten van verschillende Machine Learning-algoritmen zonder veel gedoe te vergemakkelijken. Voor degenen die op zoek zijn naar uitbreiding en zelfs combinatie van de bestaande leerders en fine-tunen van de beste techniek voor een taak, vindt mlr3 een perfecte optie. mlr3 kan worden geïnstalleerd met behulp van het commando “install.packages(“mlr3″)”.
Het brede scala aan functies wordt hier genoemd –
caret
Afkorting voor Classification And REgression Training, de caret bibliotheek biedt verschillende functies om het proces van model training voor lastige regressie en classificatie problemen te optimaliseren. caret wordt geleverd met verschillende extra tools en functies voor taken als data splitsing, variabele belang schatting, feature selectie, pre-processing, en nog veel meer. Met caret kunt u ook de prestaties van de modellen meten, en zelfs het gedrag van het model verfijnen door verschillende parameters te gebruiken zoals tuneLength of tuneGrid naargelang uw vereisten. Het pakket zelf is eenvoudig te gebruiken en laadt alleen de noodzakelijke componenten als het gaat. De bibliotheek kan worden geïnstalleerd met het commando “install.packages(“caret”)”.
esquisse
esquisse is geen bibliotheek op zich, maar een addin voor de krachtige data visualisatie bibliotheek ggplot2. Je vraagt je misschien af waarom je dit nodig hebt met ggplot2, laat het me duidelijk maken. ggplot2 is al slim genoeg, maar als je een extra laag van intuïtiviteit nodig hebt voor je visualisaties, dan is esquisse de juiste manier. esquisse laat je eenvoudig de benodigde data slepen en neerzetten, kies de gewenste aanpassingsopties, en daar heb je het, een op maat gemaakte plot gebouwd binnen een korte tijd en klaar om te exporteren naar de applicatie van je keuze. Met esquisse kunt u visualisaties maken zoals bar plots, histogrammen, scatter plots, sf objecten. U kunt esquisse aan uw omgeving toevoegen met “install.packages(“esquisse”)”.
shiny
shiny is een web applicatie framework van RStudio dat ontwikkelaars in staat stelt om interactieve web applicaties te maken met R met een minimale web development achtergrond. Met shiny kunnen webpagina’s, interactieve visualisaties, dashboards en zelfs widgets in R-documenten worden ingebed. Ook kan shiny eenvoudig worden uitgebreid met CSS-thema’s, JavaScript-acties en htmlwidgets voor extra aanpassingsmogelijkheden. Het wordt geleverd met een groot aantal aantrekkelijke ingebouwde widgets voor het presenteren van plots, tabellen, en uitvoer van R objecten, en wat je ook codeert in shiny wordt direct live gezet, waardoor die vervelende frequente pagina verversingen niet meer nodig zijn. Als je verkocht bent aan de functies en het een kans wilt geven, kun je shiny krijgen met het commando “install.packages(“shiny”)”.
Rcrawler
Als je op zoek bent naar een tool om gegevens van websites te schrapen en dat ook nog in een begrijpelijk formaat, zoek dan niet verder, Rcrawler is de juiste optie voor jou. Met Rcrawler’s krachtige web crawling, data scraping, en data mining mogelijkheden, kunt u niet alleen door websites crawlen en data scrapen, maar ook de netwerk structuur van elke website analyseren, inclusief de interne en externe hyperlinks. In het geval dat je je afvraagt waarom je rvest niet gebruikt, het Rcrawler pakket is een stapje hoger dan rvest omdat het door alle pagina’s van een website gaat en de gegevens extraheert, wat zeer nuttig kan zijn wanneer je probeert om alle informatie van één bron en in één keer te verzamelen. Het pakket kan worden geïnstalleerd met het commando “install.packages(“Rcrawler”)”.
DT
Het DT-pakket fungeert als een wrapper van de JavaScript-bibliotheek genaamd DataTables, voor R. Met DT kunt u de gegevens in uw R-matrix omzetten in een interactieve tabel op uw HTML-pagina, die het gemakkelijk maakt om gegevens te zoeken, sorteren en filteren. Het pakket werkt door de hoofdfunctie, de datatable() functie, een HTML widget te laten maken voor de R objecten. DT laat verdere verfijning toe via de “opties” argumenten en zelfs wat extra aanpasbaarheid aan uw tabellen, dit alles zonder diep in de codering te gaan. Het DT-pakket kan worden geïnstalleerd met het commando “install.packages(“DT”)”.
plotly
Als je interactieve visualisaties wilt maken die de show stelen, is plotly perfect voor jou. Met Plotly, kunt u prachtige, publicatie-waardige visualisaties maken van een diverse collectie van grafieken en diagrammen, zoals scatter en lijn plots, staafdiagrammen, taartdiagrammen, histogrammen, heatmaps, contour plots, tijdreeksen, noem maar op en plotly kan het maken. Gebouwd bovenop de plotly.js bibliotheek, kunnen plotly visualisaties ook weergegeven worden in web applicaties via Dash, in Jupyter Notebooks, of opgeslagen worden als HTML bestanden. Als u geïnteresseerd bent in het uitproberen van het pakket, kunt u het installeren met het commando “install.packages(“plotly”)”.
Andere R-bibliotheken van waarde –
- BioConductor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- data.table
- RMarkdown
- Rvest