Az R rendkívül népszerű az adatbányászok és a statisztikusok körében, és ennek részben az R-hez tartozó könyvtárak széles választéka az oka. Ezek az eszközök és funkciók nagymértékben leegyszerűsítik a statisztikai feladatokat, így az olyan feladatok, mint az adatmanipuláció, a vizualizáció, a webkúszás, a gépi tanulás és így tovább, gyerekjátékká válnak. A könyvtárak közül néhányat az alábbiakban röviden ismertetünk:
dplyr
A dplyr csomag, amelyet az adatmanipuláció nyelvtanának is neveznek, lényegében az adatmanipulációhoz gyakran használt eszközöket és függvényeket biztosít, amely a következő függvényeket tartalmazza:
- filter(): az adatok szűrésére a kritériumok alapján
- mutate(): új változók hozzáadásához, amelyek a meglévő változók függvényeiként működnek
- select(): a változók név alapján történő kiválasztásához
- summarise(): segít az adatok több értékből történő összegzésében
- arrange(): a sorok sorrendjének átrendezéséhez
- Kiegészítésképpen használhatja a group_by() függvényt, amely a követelmények szerint csoportosítva adhatja vissza az eredményeket. Ha szívesen kipróbálná a dplyr csomagot, akkor vagy a tidyverse-ről szerezheti be, vagy közvetlenül telepítheti a csomagot az “install.packages(“dplyr”) paranccsal.
tidyr
A tidyr a Tidyverse ökoszisztéma egyik alapcsomagja, és ahogy a neve is mutatja, rendezetlen adatok rendbetételére szolgál. Ha most azon tűnődsz, hogy mi is az a rendezett adat, akkor hadd tisztázzam neked. A rendezett adat azt jelzi, hogy minden oszlop változó, minden sor egy megfigyelés, és minden cella egy egyedi érték.
A tidyr szerint a rendezett adat egy olyan tárolási mód, amelyet az egész tidyverse-ben használni fogunk, és amely segíthet időt megtakarítani és produktívabbá tenni az elemzést. A csomagot a tidyverse-ről vagy a következő “install.packages(“tidyr”)” paranccsal szerezheti be.
ggplot2
Azggplot2 az adatvizualizáláshoz használt R-könyvtárak közé tartozik, és világszerte felhasználók ezrei használják aktívan lenyűgöző diagramok, grafikonok és ábrák készítésére. A népszerűség oka, hogy a ggplot2-t azért hozták létre, hogy leegyszerűsítse a vizualizációs folyamatot azáltal, hogy minimális inputot vesz el a fejlesztőtől, például a vizualizálandó adatokat, a stílust és a használandó primitíveket, a többit pedig a könyvtárra bízza.
Az eredmény egy olyan grafikon, amely könnyedén megjeleníti az összetett statisztikákat az azonnali vizualizációhoz. Ha még több testreszabhatóságot szeretne adni a grafikonjainak, akkor az olyan IDE-ket, mint az RStudio, használhatja a részletesebb vezérléshez. A ggplot2-t a tidyverse gyűjteményen keresztül vagy az önálló könyvtár használatával a “install.packages(“ggplot2″)” parancs segítségével szerezheti be.
A ggplot2 függvények megismeréséhez olvassa el ezt az R dokumentációt-
lubridate
Az R kiváló programozási nyelv az adattudományhoz, de vannak bizonyos területek, ahol az R-t hiányosnak érezheti. Az egyik ilyen terület a dátum és az idő kezelése. Aki kiterjedten dolgozik dátummal és idővel az R-ben, az nehézkesnek találhatja a beépített képességeit.
Azért, hogy ezt kiküszöböljük, van egy praktikus csomagunk, a lubridate. A csomag nem csak a standard dátumot és időt kezeli az R-ben, hanem további bővítéseket is kínál, mint például az időszakok, a nyári időszámítás, a szökőnapok, támogatja a különböző időzónákat, a gyors időelemzést és számos segédfüggvényt. Ha a projektje megköveteli, hogy idővel és dátummal dolgozzon, a lubridate csomagot beszerezheti a tidyverse-ről, vagy telepítheti csak a csomagot az “install.packages(“lubridate”)” paranccsal.
A dokumentációt itt olvashatja:
lattice
Alattice egy másik elegáns, mégis hatékony adatvizualizációs könyvtár, amely a többváltozós adatokra összpontosít. Ami különlegessé teszi ezt a könyvtárat, hogy a szokásos vizualizációk kezelése mellett a lattice felkészülten támogatja a nem szabványos helyzeteket és követelményeket is. Mivel a Trellis grafika gyakorlati megvalósítása az R számára, lehetővé teszi Trellis grafikonok létrehozását, és még olyan lehetőségeket is kínál, amelyekkel a grafikonokat az Ön igényei szerint hangolhatja. A lattice alapértelmezés szerint az R-rel együtt érkezik, de létezik a lattice-nak egy fejlett változata, a latticeExtra, amely jól jöhet abban az esetben, ha a lattice által biztosított alapfunkciókat szeretné bővíteni.
mlr
A Machine Learning in R(mlr), egy 2013-ban megjelent könyvtár, amelyet 2019-ben újabb technikákkal, jobb architektúrával és magtervezéssel frissítettek mlr3-ra. Mostantól a könyvtár keretrendszert biztosít számos osztályozás, regresszió, támogató vektor gépek és sok más Machine Learning tevékenység kezeléséhez.
Az mlr3 a Machine Learning gyakorlói és kutatói számára készült, hogy megkönnyítse a különböző Machine Learning algoritmusok benchmarkingját és telepítését nagyobb gond nélkül. Azok számára, akik bővíteni, sőt kombinálni szeretnék a meglévő tanulókat és finomhangolni egy feladathoz a legjobb technikát, az mlr3 tökéletes választás lesz. mlr3 az “install.packages(“mlr3″)” paranccsal telepíthető.
A funkciók széles skáláját itt említjük –
caret
A caret könyvtár, amely a Classification And REgression Training rövidítése, számos olyan funkciót kínál, amelyekkel optimalizálható a modellképzés folyamata trükkös regressziós és osztályozási problémák esetén. a caret számos további eszközzel és funkcióval rendelkezik olyan feladatokhoz, mint az adatok felosztása, a változók fontosságának becslése, a jellemzők kiválasztása, az előfeldolgozás és még sok más. A caret segítségével a modellek teljesítményét is mérheti, sőt a modell viselkedését különböző paraméterek, például a tuneLength vagy a tuneGrid segítségével az igényeinek megfelelően finomhangolhatja. Maga a csomag könnyen használható, és menet közben csak a szükséges komponenseket tölti be. A könyvtár az “install.packages(“caret”)” paranccsal telepíthető.
esquisse
esquisse önmagában nem egy könyvtár, hanem egy addin a nagy teljesítményű adatvizualizációs könyvtárhoz, a ggplot2-hez. Talán elgondolkodsz azon, hogy miért lenne erre szükséged a ggplot2-vel, hadd tisztázzam neked. ggplot2 már elég okos, de ha szükséged van az intuitivitás egy további rétegére a vizualizációdhoz, az esquisse a megfelelő megoldás. az esquisse lehetővé teszi, hogy egyszerűen húzd és dobd a szükséges adatokat, válaszd ki a kívánt testreszabási lehetőségeket, és máris kész a rövid idő alatt elkészített, testre szabott plot, amely készen áll az általad választott alkalmazásba való exportálásra. Az esquisse segítségével olyan vizualizációkat hozhat létre, mint például oszlopdiagramok, hisztogramok, szórásdiagramok, sf objektumok. Az esquisse-t az “install.packages(“esquisse”)” segítségével adhatja hozzá a környezetéhez.
shiny
Ashiny egy webes alkalmazás keretrendszer az RStudio-tól, amely lehetővé teszi a fejlesztők számára, hogy interaktív webes alkalmazásokat hozzanak létre az R segítségével minimális webfejlesztői háttérrel. A shiny segítségével weboldalakat, interaktív vizualizációkat, műszerfalakat készíthet, és akár widgeteket is beágyazhat R-dokumentumokba. A shiny könnyen bővíthető CSS-témákkal, JavaScript-akciókkal és htmlwidgetekkel is a további testreszabhatóság érdekében. Számos vonzó beépített widgetet tartalmaz az ábrák, táblázatok és az R-objektumok kimenetének bemutatására, és bármit is kódol a shinyben, az azonnal életre kel, kiküszöbölve az idegesítő gyakori oldalfrissítéseket. Ha tetszenek a funkciók, és szeretnéd kipróbálni, a shiny-t az “install.packages(“shiny”)” paranccsal szerezheted be.
Rcrawler
Ha egy olyan eszközt keresel, amellyel adatokat kaparhatsz le weboldalakról, méghozzá érthető formátumban, akkor ne keress tovább, az Rcrawler a megfelelő választás számodra. Az Rcrawler nagy teljesítményű webkúszási, adatkaparási és adatbányászati képességeivel nemcsak a weboldalakon kúszhat át és kaparhat le adatokat, hanem elemezheti bármely weboldal hálózati struktúráját, beleértve a belső és külső hiperhivatkozásokat is. Ha azon gondolkodik, hogy miért nem az rvest használja, az Rcrawler csomag egy lépcsőfokot jelent az rvesthez képest, mivel átnézi egy weboldal összes oldalát, és kivonja az adatokat, ami rendkívül hasznos lehet, amikor megpróbál minden információt egy forrásból és egy menetben összegyűjteni. A csomag az “install.packages(“Rcrawler”)” paranccsal telepíthető.
DT
A DT csomag a DataTables nevű JavaScript könyvtár csomagolójaként működik az R számára. A DT lehetővé teszi, hogy az R mátrixban lévő adatokat interaktív táblázattá alakítsa át a HTML oldalon, ami megkönnyíti az adatok egyszerű keresését, rendezését és szűrését. A csomag úgy működik, hogy a fő függvény, azaz a datatable() függvény egy HTML widgetet hoz létre az R objektumok számára. A DT lehetővé teszi a további finomhangolást az “options” argumentumokon keresztül, és még némi további testreszabhatóságot is a táblázatokhoz, mindezt anélkül, hogy mélyen belemennénk a kódolásba. A DT csomag telepíthető az “install.packages(“DT”)” paranccsal.
plotly
Ha olyan interaktív vizualizációkat szeretne létrehozni, amelyek ellopják a show-t, a plotly tökéletes lenne az Ön számára. A Plotly segítségével lenyűgöző, publikációhoz méltó vizualizációkat hozhat létre a diagramok és grafikonok változatos gyűjteményéből, mint például szórás- és vonaldiagramok, oszlopdiagramok, kördiagramok, hisztogramok, hőtérképek, kontúrdiagramok, idősorok, nevezze meg, és a plotly el tudja készíteni. A plotly.js könyvtárra épülve a plotly vizualizációk webes alkalmazásokban is megjeleníthetők a Dash segítségével, Jupyter notebookokban, vagy HTML fájlként menthetők. Ha szeretnéd kipróbálni a csomagot, telepítheted az “install.packages(“plotly”)” parancs segítségével.
Más értékes R könyvtárak –
- BioConductor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- data.table
- RMarkdown
- Rvest