R este extrem de popular printre minerii de date și statisticieni, iar o parte din motiv este gama extinsă de biblioteci care vine cu R. Aceste instrumente și funcții pot simplifica sarcinile statistice într-o mare măsură, făcând ca sarcini precum manipularea datelor, vizualizarea, navigarea pe web, învățarea automată și multe altele, să fie o briză. Unele dintre biblioteci au fost explicate pe scurt mai jos:
dplyr
Pachetul dplyr, cunoscut și sub numele de gramatica manipulării datelor, oferă în esență instrumente și funcții utilizate frecvent pentru manipularea datelor, care include următoarele funcții:
- filter(): pentru filtrarea datelor pe baza criteriilor
- mutate(): pentru a adăuga noi variabile care vor acționa ca funcții ale variabilelor existente
- select(): pentru selectarea variabilelor pe baza numelor
- summarise(): ajută la rezumarea datelor din mai multe valori
- arrange(): pentru rearanjarea ordinii rândurilor
- În plus, puteți utiliza funcția group_by(), care poate returna rezultatele grupate în funcție de cerințe. Dacă sunteți dornici să verificați pachetul dplyr, îl puteți obține din tidyverse sau puteți instala pachetul direct cu comanda „install.packages(„dplyr”)”.
tidyr
tidyr este unul dintre pachetele de bază din ecosistemul Tidyverse și, după cum sugerează și numele, este folosit pentru a pune ordine în datele dezordonate. Acum, dacă vă întrebați ce sunt datele ordonate, permiteți-mi să vă lămuresc. O dată ordonată indică faptul că fiecare coloană este variabilă, fiecare rând este o observație și fiecare celulă este o valoare singulară.
Potrivit lui tidyr, datele ordonate sunt un mod de stocare a datelor care urmează să fie utilizate în tot tidyverse și vă pot ajuta să economisiți timp și să fiți mai productivi cu analiza dumneavoastră. Puteți obține pachetul din tidyverse sau prin următoarea comandă „install.packages(„tidyr”)”.
ggplot2
ggplot2 se numără printre bibliotecile R de top pentru vizualizarea datelor și este utilizat în mod activ de mii de utilizatori din întreaga lume pentru a crea diagrame, grafice și diagrame convingătoare. Motivul care stă la baza acestei popularități este faptul că ggplot2 a fost creat pentru a simplifica procesul de vizualizare prin preluarea unor informații minime din partea dezvoltatorului, cum ar fi datele de vizualizat, stilul și primitivele de utilizat, lăsând restul pe seama bibliotecii.
Rezultatul este un grafic care prezintă fără efort statistici complexe pentru vizualizări instantanee. Dacă doriți să adăugați mai multe posibilități de personalizare a graficelor dumneavoastră, puteți utiliza IDE-uri precum RStudio pentru un control mai granular. Puteți pune mâna pe ggplot2 prin intermediul colecției tidyverse sau utilizând biblioteca de sine stătătoare prin intermediul comenzii „install.packages(„ggplot2″)”.
Citiți această documentație R pentru a afla despre funcțiile ggplot2-
lubridate
R este un limbaj de programare excelent pentru știința datelor, dar există anumite domenii în care R se poate simți incomplet. Una dintre aceste zone este manipularea datei și a orei. Pentru oricine lucrează în mod extensiv cu data și ora în R, poate considera că capacitățile încorporate ale acestuia sunt greoaie.
Pentru a depăși acest lucru, avem un pachet util numit lubridate. Pachetul nu numai că gestionează data și ora standard în R, dar oferă, de asemenea, îmbunătățiri suplimentare, cum ar fi perioadele de timp, orele de vară, zilele bisecte, suportă diferite fusuri orare, parsarea rapidă a timpului și multe funcții de ajutor. În cazul în care proiectul dumneavoastră necesită să lucrați cu data și ora, puteți obține pachetul lubridate de la tidyverse sau puteți instala doar pachetul cu comanda „install.packages(„lubridate”)”.
Citiți documentația aici:
lattice
lattice este o altă bibliotecă de vizualizare a datelor elegantă, dar puternică, axată pe date multivariate. Ceea ce face ca această bibliotecă să fie specială, este faptul că, pe lângă faptul că se ocupă de vizualizările obișnuite, lattice vine, de asemenea, pregătită cu suport pentru situații și cerințe non-standard. Datorită faptului că este implementarea practică a graficii Trellis pentru R, vă permite să creați grafice Trellis și chiar oferă opțiuni pentru a regla graficele în funcție de cerințele dumneavoastră. lattice vine implicit cu R, dar există o versiune avansată a lattice numită latticeExtra, care ar putea fi utilă în cazul în care doriți să extindeți caracteristicile de bază oferite de lattice.
mlr
The Machine Learning in R(mlr), este o bibliotecă care a fost lansată în 2013 și a fost actualizată la mlr3 cu tehnici mai noi, o arhitectură mai bună și un design de bază în 2019. Începând de acum, biblioteca oferă un cadru pentru a aborda mai multe clasificări, regresie, mașini vectoriale de suport și multe alte activități de Machine Learning.
mlr3 se adresează practicienilor și cercetătorilor din domeniul Machine Learning pentru a facilita evaluarea comparativă și implementarea diferiților algoritmi de Machine Learning fără prea multe bătăi de cap. Pentru cei care caută să extindă și chiar să combine învățătorii existenți și să ajusteze fin cea mai bună tehnică pentru o sarcină, vor găsi mlr3 ca fiind o opțiune perfectă. mlr3 poate fi instalat folosind comanda „install.packages(„mlr3″)”.
Gama largă de funcții sunt menționate aici –
caret
Scurtă pentru Classification And REgression Training, biblioteca caret oferă mai multe funcții pentru a optimiza procesul de formare a modelelor pentru probleme dificile de regresie și clasificare. caret vine cu mai multe instrumente și funcții suplimentare pentru sarcini precum divizarea datelor, estimarea importanței variabilelor, selectarea caracteristicilor, preprocesarea și multe altele. Cu caret, puteți, de asemenea, să măsurați performanța modelelor și chiar să reglați cu precizie comportamentul modelului utilizând diverși parametri, cum ar fi tuneLength sau tuneGrid, în funcție de cerințele dumneavoastră. Pachetul în sine este ușor de utilizat și încarcă doar componentele necesare pe parcurs. Biblioteca poate fi instalată cu comanda „install.packages(„caret”)”.
esquisse
esquisse nu este o bibliotecă în sine, ci un addin pentru puternica bibliotecă de vizualizare a datelor ggplot2. S-ar putea să vă întrebați de ce ați avea nevoie de acest lucru cu ggplot2, permiteți-mi să vă lămuresc. ggplot2 este deja suficient de inteligent, dar dacă aveți nevoie de un nivel suplimentar de intuitivitate pentru vizualizările dvs., esquisse este calea cea bună. esquisse vă permite să trageți și să plasați pur și simplu datele necesare, să alegeți opțiunile de personalizare dorite și iată, un grafic personalizat construit într-o perioadă scurtă de timp și gata de a fi exportat în aplicația dvs. preferată. Cu esquisse, puteți crea vizualizări cum ar fi diagrame de bare, histograme, diagrame de dispersie, obiecte sf. Puteți adăuga esquisse în mediul dumneavoastră folosind „install.packages(„esquisse”)”.
shiny
shiny este un cadru de aplicații web de la RStudio care permite dezvoltatorilor să creeze aplicații web interactive folosind R cu un minim de cunoștințe de dezvoltare web. Cu shiny, puteți construi pagini web, vizualizări interactive, tablouri de bord și chiar încorpora widget-uri în documentele R. De asemenea, shiny poate fi extins cu ușurință cu teme CSS, acțiuni JavaScript și htmlwidget-uri pentru o personalizare suplimentară. Vine cu o multitudine de widget-uri încorporate atractive pentru a prezenta diagrame, tabele și ieșiri ale obiectelor R, iar tot ceea ce codificați în shiny se activează în aceeași clipă, eliminând acele enervante actualizări frecvente ale paginilor. Dacă v-au convins caracteristicile și vreți să-i dați o șansă, puteți obține shiny folosind comanda „install.packages(„shiny”)”.
Rcrawler
Dacă sunteți în căutarea unui instrument pentru a extrage date de pe site-uri web și asta într-un format ușor de înțeles, nu mai căutați, Rcrawler este opțiunea potrivită pentru dumneavoastră. Cu capacitățile puternice de web crawling, data scraping și data mining ale lui Rcrawler, puteți nu numai să parcurgeți site-uri web și să răzuiți date, ci și să analizați structura de rețea a oricărui site web, inclusiv hiperlegăturile sale interne și externe. În cazul în care vă întrebați de ce nu folosiți rvest, pachetul Rcrawler este un pas înainte față de rvest, deoarece parcurge toate paginile unui site web și extrage datele, ceea ce poate fi extrem de util atunci când încercați să adunați toate informațiile dintr-o singură sursă și dintr-o singură dată. Pachetul poate fi instalat cu comanda „install.packages(„Rcrawler”)”.
DT
Pachetul DT acționează ca un înveliș al bibliotecii JavaScript numită DataTables, pentru R. DT vă permite să transformați datele din matricea R într-un tabel interactiv pe pagina HTML, ceea ce facilitează căutarea, sortarea și filtrarea ușoară a datelor. Pachetul funcționează permițând funcției principale, și anume funcția datatable(), să creeze un widget HTML pentru obiectele R. DT permite o ajustare suplimentară prin intermediul argumentelor „options” și chiar o personalizare suplimentară a tabelelor dumneavoastră, toate acestea fără a intra adânc în codificare. Pachetul DT poate fi instalat folosind comanda „install.packages(„DT”)”.
plotly
Dacă doriți să creați vizualizări interactive care să vă fure spectacolul, plotly ar fi perfect pentru dumneavoastră. Cu Plotly, puteți crea vizualizări uimitoare, demne de o publicație, dintr-o colecție diversă de diagrame și grafice, cum ar fi diagrame de împrăștiere și de linii, diagrame de bare, diagrame circulare, histograme, hărți de căldură, diagrame de contur, serii de timp, spuneți ce doriți și plotly îl poate realiza. Construite pe baza bibliotecii plotly.js, vizualizările plotly pot fi, de asemenea, afișate în aplicații web prin Dash, în Jupyter Notebooks sau salvate ca fișiere HTML. Dacă sunteți interesat să încercați pachetul, îl puteți instala folosind comanda „install.packages(„plotly”)”.
Alte biblioteci R valoroase –
- BioConductor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- data.table
- RMarkdown
- Rvest