R je mezi Data Minery a statistiky nesmírně populární a jedním z důvodů je rozsáhlá nabídka knihoven, které jsou součástí R. Tyto nástroje a funkce mohou do značné míry zjednodušit statistické úlohy, takže úlohy jako manipulace s daty, vizualizace, procházení webu, strojové učení a další jsou hračkou. Některé z těchto knihoven jsou stručně vysvětleny níže:
dplyr
Balík dplyr, známý také jako gramatika manipulace s daty, v podstatě poskytuje často používané nástroje a funkce pro manipulaci s daty, které zahrnují následující funkce:
- filter(): pro filtrování dat na základě kritérií
- mutate(): pro přidání nových proměnných, které budou fungovat jako funkce stávajících proměnných
- select(): pro výběr proměnných na základě názvů
- summarise(): pomáhá shrnout data z více hodnot
- arrange(): pro změnu pořadí řádků
- Dále můžete použít funkci group_by(), která může vrátit výsledky seskupené podle požadavků. Pokud máte zájem vyzkoušet balíček dplyr, můžete jej buď získat z tidyverse, nebo jej nainstalovat přímo příkazem „install.packages(„dplyr“).
tidyr
tidyr je jedním ze základních balíčků ekosystému Tidyverse a jak název napovídá, slouží k úklidu nepřehledných dat. Pokud vás nyní zajímá, co to tidy data jsou, objasním vám to. Tidy data znamenají, že každý sloupec je proměnná, každý řádek je pozorování a každá buňka je singulární hodnota.
Podle tidyr jsou tidy data způsob ukládání dat, který se má používat v celém tidyverse a může vám pomoci ušetřit čas a být produktivnější při analýze. Balíček můžete získat z tidyverse nebo pomocí následujícího příkazu „install.packages(„tidyr“)“.
ggplot2
ggplot2 patří mezi špičkové knihovny R pro vizualizaci dat a aktivně jej používají tisíce uživatelů po celém světě k vytváření přesvědčivých grafů, diagramů a grafů. Důvodem této popularity je, že ggplot2 byl vytvořen s cílem zjednodušit proces vizualizace tím, že od vývojáře přebírá minimální vstupní údaje, jako jsou data, která se mají vizualizovat, styl a primitiva, která se mají použít, zatímco zbytek nechává na knihovně.
Výsledkem je graf, který bez námahy prezentuje složité statistiky pro okamžitou vizualizaci. Pokud chcete grafům přidat více možností přizpůsobení, můžete použít IDE, jako je RStudio, pro podrobnější kontrolu. Knihovnu ggplot2 můžete získat prostřednictvím kolekce tidyverse nebo pomocí samostatné knihovny pomocí příkazu „install.packages(„ggplot2″)“.
Přečtěte si tuto dokumentaci k R, abyste se dozvěděli o funkcích ggplot2-
lubridate
R je vynikající programovací jazyk pro Data Science, ale existují určité oblasti, kde se R může zdát neúplný. Jednou z takových oblastí je práce s datem a časem. Pro každého, kdo v R intenzivně pracuje s datem a časem, mohou být jeho vestavěné možnosti těžkopádné.
Pro překonání tohoto problému máme k dispozici šikovný balíček lubridate. Balíček nejenže zpracovává standardní datum a čas v R, ale nabízí i další vylepšení, jako jsou časová období, letní čas, přestupné dny, podporuje různá časová pásma, rychlé parsování času a mnoho pomocných funkcí. Pokud váš projekt vyžaduje práci s časem a datem, můžete získat balíček lubridate z tidyverse nebo nainstalovat pouze balíček pomocí příkazu „install.packages(„lubridate“)“.
Přečtěte si dokumentaci zde:
lattice
lattice je další elegantní a zároveň výkonná knihovna pro vizualizaci dat zaměřená na vícerozměrná data. Výjimečnost této knihovny spočívá v tom, že kromě zpracování běžných vizualizací je lattice připravena i s podporou nestandardních situací a požadavků. Vzhledem k tomu, že se jedná o praktickou implementaci Trellisovy grafiky pro R, umožňuje vytvářet Trellisovy grafy a dokonce nabízí možnosti vyladění grafů podle vašich požadavků. lattice se standardně dodává s R, ale existuje i pokročilá verze lattice s názvem latticeExtra, která se může hodit v případě, že chcete rozšířit základní funkce poskytované lattice.
mlr
Machinové učení v R(mlr), je knihovna, která byla vydána v roce 2013 a v roce 2019 byla aktualizována na mlr3 s novějšími technikami, lepší architekturou a návrhem jádra. Od této chvíle knihovna poskytuje rámec pro řešení několika klasifikací, regresí, strojů s podpůrnými vektory a mnoha dalších činností v oblasti strojového učení.
mlr3 je zaměřena na praktiky a výzkumné pracovníky v oblasti strojového učení, aby usnadnila srovnávání a nasazení různých algoritmů strojového učení bez velkých potíží. Pro ty, kteří chtějí rozšířit a dokonce kombinovat stávající učící se nástroje a vyladit nejlepší techniku pro danou úlohu, bude mlr3 ideální volbou. mlr3 lze nainstalovat pomocí příkazu „install.packages(„mlr3″)“.
Široká škála funkcí je zmíněna zde –
caret
Knihovna caret, zkráceně Classification And REgression Training, poskytuje několik funkcí pro optimalizaci procesu trénování modelu pro záludné regresní a klasifikační problémy. caret přichází s několika dalšími nástroji a funkcemi pro úlohy, jako je rozdělení dat, odhad důležitosti proměnných, výběr příznaků, předběžné zpracování a mnoho dalších. Pomocí caret můžete také měřit výkonnost modelů a dokonce doladit chování modelu pomocí různých parametrů, jako je tuneLength nebo tuneGrid, podle svých požadavků. Samotný balík se snadno používá a za chodu načítá pouze potřebné komponenty. Knihovnu lze nainstalovat příkazem „install.packages(„caret“)“.
esquisse
esquisse není knihovna jako taková, ale doplněk pro výkonnou knihovnu pro vizualizaci dat ggplot2. Možná si říkáte, k čemu by vám to bylo u ggplot2, dovolte mi, abych vám to objasnil. ggplot2 je už tak dost chytrý, ale pokud potřebujete pro své vizualizace další vrstvu intuitivnosti, je esquisse tou správnou cestou. esquisse vám umožní jednoduše přetáhnout požadovaná data, vybrat požadované možnosti přizpůsobení a máte to, během krátké doby sestavený graf na míru, který je připraven k exportu do vybrané aplikace. Pomocí aplikace esquisse můžete vytvářet vizualizace, jako jsou sloupcové grafy, histogramy, grafy rozptylu, sf objekty. Esquisse můžete přidat do svého prostředí pomocí „install.packages(„esquisse“)“.
shiny
shiny je framework webových aplikací od RStudia, který umožňuje vývojářům vytvářet interaktivní webové aplikace pomocí R s minimálním zázemím pro vývoj webových aplikací. Pomocí shiny můžete vytvářet webové stránky, interaktivní vizualizace, ovládací panely a dokonce vkládat widgety do dokumentů R. Shiny lze také snadno rozšířit o motivy CSS, akce JavaScript a htmlwidgety pro další přizpůsobení. Obsahuje řadu atraktivních vestavěných widgetů pro prezentaci grafů, tabulek a výstupů z objektů R. Cokoli v programu shiny nakódujete, bude ihned živé, čímž se eliminuje otravné časté obnovování stránek. Pokud vás jeho funkce zaujaly a chcete si ho vyzkoušet, můžete si shiny pořídit pomocí příkazu „install.packages(„shiny“)“.
Rcrawler
Pokud hledáte nástroj na vyškrabávání dat z webových stránek, a to navíc ve srozumitelném formátu, nehledejte dál, Rcrawler je pro vás tou správnou volbou. Díky výkonným funkcím nástroje Rcrawler pro procházení webových stránek, škrábání dat a dolování dat můžete nejen procházet webové stránky a škrábat data, ale také analyzovat síťovou strukturu jakýchkoli webových stránek, včetně jejich vnitřních a vnějších hypertextových odkazů. Pokud vás zajímá, proč nepoužívat rvest, balík Rcrawler je oproti rvest o stupeň lepší, protože prochází všechny stránky na webu a extrahuje data, což může být velmi užitečné při snaze shromáždit všechny informace z jednoho zdroje a najednou. Balíček lze nainstalovat příkazem „install.packages(„Rcrawler“)“.
DT
Balíček DT funguje jako obal knihovny JavaScriptu s názvem DataTables pro R. DT umožňuje transformovat data v matici R do interaktivní tabulky na stránce HTML, což usnadňuje vyhledávání, třídění a filtrování dat. Balíček funguje tak, že nechává hlavní funkci, tj. funkci datatable(), vytvořit HTML widget pro objekty R. DT umožňuje další doladění pomocí argumentů „options“ a dokonce i některé další možnosti přizpůsobení vašich tabulek, a to vše bez hlubšího zásahu do kódování. Balíček DT lze nainstalovat pomocí příkazu „install.packages(„DT“)“.
plotly
Pokud chcete vytvářet interaktivní vizualizace, které si ukradnou pozornost, bude pro vás plotly ideální. Pomocí nástroje Plotly můžete vytvářet ohromující vizualizace hodné publikování z rozmanité sbírky grafů a diagramů, jako jsou grafy rozptylu a čárové grafy, sloupcové grafy, koláčové grafy, histogramy, heatmapy, obrysové grafy, časové řady – řekněte si, co chcete, a nástroj Plotly to dokáže vytvořit. Vizualizace plotly jsou postaveny nad knihovnou plotly.js a lze je také zobrazit ve webových aplikacích prostřednictvím Dash, v poznámkových blocích Jupyter nebo uložit jako soubory HTML. Pokud máte zájem balíček vyzkoušet, můžete jej nainstalovat pomocí příkazu „install.packages(„plotly“)“.
Další hodnotné knihovny R –
- BioConductor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- data.table
- RMarkdown
- Rvest
.