R è estremamente popolare tra i minatori di dati e gli statistici, e parte della ragione è la vasta gamma di librerie che viene fornita con R. Questi strumenti e funzioni possono semplificare i compiti statistici in larga misura, rendendo compiti come la manipolazione dei dati, la visualizzazione, il web crawling, il Machine Learning e altro, un gioco da ragazzi. Alcune delle librerie sono state brevemente spiegate di seguito:
dplyr
Il pacchetto dplyr, noto anche come la grammatica della manipolazione dei dati, fornisce essenzialmente strumenti e funzioni di uso frequente per la manipolazione dei dati, che include le seguenti funzioni:
- filter(): per filtrare i dati in base ai criteri
- mutate(): per aggiungere nuove variabili che agiranno come funzioni delle variabili esistenti
- select(): per selezionare le variabili in base ai nomi
- summarise(): aiuta a riassumere i dati da valori multipli
- arrange(): per riordinare l’ordine delle righe
- Inoltre, puoi usare la funzione group_by(), che può restituire i risultati raggruppati secondo i requisiti. Se volete controllare il pacchetto dplyr, potete ottenerlo dal tidyverse o installare il pacchetto direttamente con il comando “install.packages(“dplyr”).
tidyr
tidyr è uno dei pacchetti principali dell’ecosistema Tidyverse e, come suggerisce il nome, è usato per riordinare dati disordinati. Ora, se vi state chiedendo cosa siano i dati ordinati, lasciate che ve lo chiarisca. Un tidy data indica che ogni colonna è variabile, ogni riga è un’osservazione e ogni cella è un valore singolare.
Secondo tidyr, tidy data è un modo di memorizzare i dati che devono essere utilizzati in tutto il tidyverse e può aiutarvi a risparmiare tempo ed essere più produttivi con le vostre analisi. È possibile ottenere il pacchetto da tidyverse o dal seguente comando “install.packages(“tidyr”)”.
ggplot2
ggplot2 è tra le migliori librerie R per la visualizzazione dei dati ed è attivamente utilizzato da migliaia di utenti in tutto il mondo per creare grafici, diagrammi e diagrammi convincenti. La ragione dietro questa popolarità è che ggplot2 è stato creato per semplificare il processo di visualizzazione prendendo un input minimo dallo sviluppatore, come i dati da visualizzare, lo stile e le primitive da usare, lasciando il resto alla libreria.
Il risultato è un grafico che presenta senza sforzo statistiche complesse per visualizzazioni istantanee. Se state cercando di aggiungere più personalizzazione ai vostri grafici, potete usare IDE come RStudio per un controllo più granulare. Puoi mettere le mani su ggplot2 attraverso la collezione tidyverse o usando la libreria standalone attraverso il comando “install.packages(“ggplot2″)”.
Leggi questa documentazione di R per conoscere le funzioni di ggplot2-
lubridate
R è un eccellente linguaggio di programmazione per la scienza dei dati, ma ci sono alcune aree dove R può sembrare incompleto. Una di queste aree è la gestione di data e ora. Per chiunque lavori molto con la data e l’ora in R, potrebbe trovare le sue capacità integrate ingombranti.
Per superare questo, abbiamo un comodo pacchetto chiamato lubridate. Il pacchetto non solo gestisce la data e l’ora standard in R, ma offre anche ulteriori miglioramenti come i periodi di tempo, l’ora legale, i giorni bisestili, supporta vari fusi orari, l’analisi veloce dell’ora e molte funzioni di aiuto. Se il vostro progetto richiede di lavorare con l’ora e la data, potete ottenere il pacchetto lubridate da tidyverse o installare solo il pacchetto con il comando “install.packages(“lubridate”)”.
Leggi la documentazione qui:
lattice
lattice è un’altra elegante ma potente libreria di visualizzazione dati focalizzata sui dati multivariati. Ciò che rende speciale questa libreria, è che oltre a gestire le visualizzazioni regolari, lattice è anche preparato con il supporto per situazioni e requisiti non standard. Essendo l’implementazione pratica della grafica Trellis per R, permette di creare grafici Trellis e offre anche opzioni per sintonizzare i grafici in base alle vostre esigenze. lattice viene fornito con R di default, ma c’è una versione avanzata di lattice chiamata latticeExtra, che potrebbe tornare utile nel caso in cui si desideri estendere le caratteristiche di base fornite da lattice.
mlr
La Machine Learning in R(mlr), è una libreria che è stata rilasciata nel 2013 ed è stata aggiornata a mlr3 con tecniche più recenti, una migliore architettura e un design del nucleo nel 2019. A partire da ora, la libreria fornisce un quadro per affrontare diverse classificazioni, regressione, macchine vettoriali di supporto e molte altre attività di Machine Learning.
mlr3 si rivolge a professionisti e ricercatori di Machine Learning per facilitare il benchmarking e la distribuzione di vari algoritmi di Machine Learning senza molti problemi. Per coloro che cercano di estendere e anche combinare gli apprendisti esistenti e mettere a punto la tecnica migliore per un compito, troveranno mlr3 un’opzione perfetta. mlr3 può essere installato utilizzando il comando “install.packages(“mlr3″)”.
La vasta gamma di funzioni sono menzionate qui –
caret
Caret, abbreviazione di Classification And REgression Training, la libreria caret fornisce diverse funzioni per ottimizzare il processo di formazione del modello per problemi di regressione e classificazione complessi. caret viene fornito con diversi strumenti e funzioni aggiuntive per compiti come la suddivisione dei dati, la stima dell’importanza delle variabili, la selezione delle caratteristiche, il preprocessing e molti altri. Con caret, è anche possibile misurare le prestazioni dei modelli, e anche mettere a punto il comportamento del modello utilizzando vari parametri come tuneLength o tuneGrid secondo le vostre esigenze. Il pacchetto stesso è facile da usare e carica solo i componenti necessari man mano. La libreria può essere installata con il comando “install.packages(“caret”)”.
esquisse
esquisse non è una libreria in sé, ma un addin per la potente libreria di visualizzazione dati ggplot2. Vi starete chiedendo perché dovreste averne bisogno con ggplot2, lasciate che ve lo chiarisca. ggplot2 è già abbastanza intelligente, ma se avete bisogno di un ulteriore livello di intuitività per le vostre visualizzazioni, esquisse è la strada giusta da percorrere. esquisse vi permette semplicemente di trascinare e rilasciare i dati richiesti, scegliere le opzioni di personalizzazione desiderate, ed ecco fatto, una trama su misura costruita in breve tempo e pronta per l’esportazione nella vostra applicazione preferita. Con esquisse è possibile creare visualizzazioni come grafici a barre, istogrammi, grafici a dispersione e oggetti sf. Potete aggiungere esquisse al vostro ambiente usando “install.packages(“esquisse”)”.
shiny
shiny è un framework per applicazioni web di RStudio che permette agli sviluppatori di creare applicazioni web interattive usando R con un background minimo di sviluppo web. Con shiny, è possibile costruire pagine web, visualizzazioni interattive, dashboard, e anche incorporare widget su documenti R. Shiny può anche essere facilmente esteso con temi CSS, azioni JavaScript e htmlwidget per una maggiore personalizzazione. Viene fornito con una serie di attraenti widget integrati per la presentazione di grafici, tabelle e output di oggetti R, e qualsiasi cosa si codifichi in shiny va in esecuzione nello stesso istante, eliminando quei fastidiosi e frequenti refresh della pagina. Se sei convinto delle caratteristiche e vuoi provarlo, puoi ottenere shiny usando il comando “install.packages(“shiny”)”.
Rcrawler
Se stai cercando uno strumento per raschiare i dati dai siti web e anche in un formato comprensibile, non cercare oltre, Rcrawler è l’opzione giusta per te. Con le potenti capacità di web crawling, data scraping e data mining di Rcrawler, è possibile non solo strisciare attraverso i siti web e raschiare i dati, ma anche analizzare la struttura della rete di qualsiasi sito web, compresi i suoi collegamenti ipertestuali interni ed esterni. Nel caso vi stiate chiedendo perché non usare rvest, il pacchetto Rcrawler è un passo avanti rispetto a rvest in quanto passa attraverso tutte le pagine di un sito web ed estrae i dati, il che può essere estremamente utile quando si cerca di raccogliere tutte le informazioni da una fonte e in una sola volta. Il pacchetto può essere installato con il comando “install.packages(“Rcrawler”)”.
DT
Il pacchetto DT agisce come un wrapper della libreria JavaScript chiamata DataTables, per R. DT ti permette di trasformare i dati nella tua matrice R in una tabella interattiva sulla tua pagina HTML, che facilita la ricerca, l’ordinamento e il filtraggio dei dati. Il pacchetto funziona lasciando che la funzione principale, cioè la funzione datatable(), crei un widget HTML per gli oggetti R. DT permette ulteriori regolazioni tramite gli argomenti “options” e anche qualche ulteriore personalizzazione delle vostre tabelle, tutto questo senza andare in profondità nella codifica. Il pacchetto DT può essere installato usando il comando “install.packages(“DT”)”.
plotly
Se volete creare visualizzazioni interattive che rubano la scena, plotly sarebbe perfetto per voi. Con Plotly, è possibile creare visualizzazioni mozzafiato, degne di essere pubblicate, da una collezione diversificata di grafici e diagrammi, come grafici di dispersione e di linea, grafici a barre, grafici a torta, istogrammi, mappe di calore, grafici di contorno, serie temporali, basta nominarli e plotly può farli. Costruito sopra la libreria plotly.js, le visualizzazioni plotly possono anche essere visualizzate in applicazioni web tramite Dash, in Jupyter Notebooks, o salvate come file HTML. Se sei interessato a provare il pacchetto, puoi installarlo usando il comando “install.packages(“plotly”)”.
Altre librerie R degne di nota –
- BioConductor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- data.table
- RMarkdown
- Rvest