R jest niezwykle popularny wśród górników danych i statystyków, a częścią tego powodu jest szeroka gama bibliotek dołączonych do R. Te narzędzia i funkcje mogą w znacznym stopniu uprościć zadania statystyczne, sprawiając, że zadania takie jak manipulacja danymi, wizualizacja, indeksowanie stron internetowych, uczenie maszynowe i wiele innych, stają się łatwiejsze. Niektóre z tych bibliotek zostały krótko wyjaśnione poniżej:

dplyr

Pakiet dplyr, znany również jako gramatyka manipulacji danymi, zasadniczo zapewnia często używane narzędzia i funkcje do manipulacji danymi, które obejmują następujące funkcje:

  • filter(): do filtrowania danych na podstawie kryteriów
  • mutate(): do dodawania nowych zmiennych, które będą działać jako funkcje istniejących zmiennych
  • select(): do wybierania zmiennych na podstawie nazw
  • summarise(): pomaga podsumować dane na podstawie wielu wartości
  • arrange(): do zmiany kolejności wierszy
  • Dodatkowo możesz użyć funkcji group_by(), która może zwrócić wyniki pogrupowane zgodnie z wymaganiami. Jeśli masz ochotę sprawdzić pakiet dplyr, możesz go pobrać z tidyverse lub zainstalować bezpośrednio za pomocą polecenia „install.packages(„dplyr”)”.

tidyr

tidyr jest jednym z podstawowych pakietów w ekosystemie Tidyverse, i jak sama nazwa wskazuje, jest używany do porządkowania niechlujnych danych. Teraz, jeśli zastanawiasz się czym są uporządkowane dane, pozwól, że ci to wyjaśnię. Uporządkowane dane wskazują, że każda kolumna jest zmienna, każdy wiersz jest obserwacją, a każda komórka jest pojedynczą wartością.

Według tidyr, uporządkowane dane to sposób przechowywania danych, które mają być używane w całym tidyverse i mogą pomóc zaoszczędzić czas i być bardziej produktywne w analizie. Pakiet można pobrać z tidyverse lub za pomocą następującego polecenia „install.packages(„tidyr”)”.

gggplot2

gggplot2 jest jedną z najlepszych bibliotek R do wizualizacji danych i jest aktywnie wykorzystywana przez tysiące użytkowników na całym świecie do tworzenia atrakcyjnych wykresów, diagramów i działek. Powodem tej popularności jest fakt, że ggplot2 został stworzony, aby uprościć proces wizualizacji poprzez minimalny wkład programisty, taki jak dane do wizualizacji, styl i prymitywy do użycia, pozostawiając resztę bibliotece.

Wynikiem jest wykres, który bez wysiłku prezentuje złożone statystyki dla natychmiastowych wizualizacji. Jeśli chcesz dodać więcej możliwości dostosowywania do swoich wykresów, możesz użyć IDE takich jak RStudio, aby uzyskać bardziej szczegółową kontrolę. Możesz dostać w swoje ręce ggplot2 poprzez kolekcję tidyverse lub używając samodzielnej biblioteki poprzez polecenie „install.packages(„ggplot2″)”.

Przeczytaj tę dokumentację R, aby dowiedzieć się o funkcjach ggplot2-

lubridate

R jest doskonałym językiem programowania dla Data Science, ale istnieją pewne obszary, w których R może czuć się niekompletny. Jednym z takich obszarów jest obsługa daty i czasu. Dla każdego, kto intensywnie pracuje z datą i czasem w R, wbudowane możliwości mogą okazać się uciążliwe.

Aby temu zaradzić, mamy poręczny pakiet o nazwie lubridate. Pakiet ten nie tylko obsługuje standardową datę i czas w R, ale także oferuje dodatkowe ulepszenia, takie jak okresy czasu, czas letni, dni przestępne, obsługuje różne strefy czasowe, szybkie parsowanie czasu i wiele funkcji pomocniczych. Jeśli twój projekt wymaga pracy z czasem i datą, możesz pobrać pakiet lubridate z tidyverse lub zainstalować sam pakiet za pomocą polecenia „install.packages(„lubridate”)”.

Przeczytaj dokumentację tutaj:

lattice

lattice jest kolejną elegancką, ale potężną biblioteką wizualizacji danych, skoncentrowaną na danych wielowymiarowych. To co czyni tę bibliotekę wyjątkową, to fakt, że oprócz obsługi zwykłych wizualizacji, lattice posiada również wsparcie dla niestandardowych sytuacji i wymagań. Dzięki temu, że jest praktyczną implementacją grafiki Trellis dla R, pozwala na tworzenie wykresów Trellis, a nawet oferuje opcje dostrajania wykresów zgodnie z wymaganiami użytkownika. lattice jest domyślnie dostarczana z R, ale istnieje zaawansowana wersja lattice o nazwie latticeExtra, która może się przydać w przypadku, gdy chcemy rozszerzyć podstawowe funkcje dostarczane przez lattice.

mlr

Uczenie maszynowe w R(mlr), to biblioteka, która została wydana w 2013 roku i została zaktualizowana do mlr3 z nowszymi technikami, lepszą architekturą i konstrukcją rdzenia w 2019 roku. Od teraz, biblioteka zapewnia ramy do adresowania kilku klasyfikacji, regresji, maszyn wektorów wsparcia i wielu innych działań Machine Learning.

mlr3 jest skierowany do praktyków Machine Learning i naukowców, aby ułatwić porównywanie i wdrażanie różnych algorytmów uczenia maszynowego bez większego kłopotu. Dla tych, którzy szukają możliwości rozszerzenia, a nawet połączenia istniejących narzędzi uczących i dostrojenia najlepszej techniki do danego zadania, mlr3 będzie idealnym rozwiązaniem. mlr3 można zainstalować za pomocą polecenia „install.packages(„mlr3″)”.

Szeroki zakres funkcji jest wymieniony tutaj –

caret

Skrót od Classification And REgression Training, biblioteka caret dostarcza kilku funkcji do optymalizacji procesu szkolenia modelu dla skomplikowanych problemów regresji i klasyfikacji. caret jest dostarczany z kilkoma dodatkowymi narzędziami i funkcjami do zadań takich jak podział danych, szacowanie ważności zmiennych, wybór cech, wstępne przetwarzanie i wiele innych. Za pomocą caret można również mierzyć wydajność modeli, a nawet dostrajać zachowanie modelu za pomocą różnych parametrów, takich jak tuneLength lub tuneGrid, zgodnie z wymaganiami użytkownika. Sam pakiet jest łatwy w użyciu i ładuje tylko niezbędne komponenty w trakcie pracy. Bibliotekę można zainstalować za pomocą polecenia „install.packages(„caret”)”.

esquisse

esquisse nie jest biblioteką per se, ale dodatkiem do potężnej biblioteki wizualizacji danych ggplot2. Być może zastanawiasz się, dlaczego potrzebujesz tego z ggplot2, pozwól, że ci to wyjaśnię. ggplot2 jest już wystarczająco inteligentny, ale jeśli potrzebujesz dodatkowej warstwy intuicyjności dla swoich wizualizacji, esquisse jest właściwą drogą. esquisse pozwala po prostu przeciągnąć i upuścić wymagane dane, wybrać pożądane opcje dostosowywania, i tam masz to, dostosowaną działkę zbudowaną w krótkim czasie i gotową do eksportu do wybranej aplikacji. Z esquisse można tworzyć wizualizacje takie jak wykresy słupkowe, histogramy, wykresy rozrzutu, obiekty sf. Możesz dodać esquisse do swojego środowiska za pomocą „install.packages(„esquisse”)”.

shiny

shiny jest frameworkiem aplikacji internetowych od RStudio, który pozwala programistom tworzyć interaktywne aplikacje internetowe przy użyciu R z minimalnym zapleczem programistycznym. Z shiny można budować strony internetowe, interaktywne wizualizacje, pulpity, a nawet osadzać widgety w dokumentach R. shiny można również łatwo rozszerzyć o motywy CSS, akcje JavaScript i htmlwidgety dla dodatkowego dostosowania. Posiada wiele atrakcyjnych, wbudowanych widgetów do prezentacji działek, tabel i danych wyjściowych obiektów R. Cokolwiek zakodujesz w shiny, zostanie wyświetlone w tym samym momencie, eliminując irytujące częste odświeżanie strony. Jeśli jesteś przekonany do tych funkcji i chcesz spróbować, możesz pobrać shiny za pomocą polecenia „install.packages(„shiny”)”.

Rcrawler

Jeśli szukasz narzędzia do zbierania danych z witryn internetowych i to w zrozumiałym formacie, nie szukaj dalej, Rcrawler jest właściwym rozwiązaniem dla ciebie. Dzięki potężnym możliwościom Rcrawlera w zakresie indeksowania stron internetowych, skrobania danych i eksploracji danych, możesz nie tylko indeksować strony internetowe i skrobać dane, ale także analizować strukturę sieciową dowolnej strony internetowej, w tym jej wewnętrzne i zewnętrzne hiperłącza. W przypadku, gdy zastanawiasz się, dlaczego nie używać rvest, pakiet Rcrawler jest o krok wyżej od rvest, ponieważ przechodzi przez wszystkie strony na stronie internetowej i wydobywa dane, co może być niezwykle pomocne podczas próby zebrania wszystkich informacji z jednego źródła i za jednym zamachem. Pakiet można zainstalować za pomocą polecenia „install.packages(„Rcrawler”)”.

DT

Pakiet DT działa jako opakowanie biblioteki JavaScript o nazwie DataTables, dla R. DT pozwala na przekształcenie danych w macierzy R w interaktywną tabelę na stronie HTML, co ułatwia łatwe wyszukiwanie, sortowanie i filtrowanie danych. Pakiet działa poprzez umożliwienie głównej funkcji, tj. funkcji datatable(), utworzenia widżetu HTML dla obiektów R. DT pozwala na dalsze dostosowanie poprzez argumenty „options”, a nawet na pewne dodatkowe możliwości dostosowania tabel, a wszystko to bez zagłębiania się w kodowanie. Pakiet DT można zainstalować za pomocą polecenia „install.packages(„DT”)”.

plotly

Jeśli chcesz tworzyć interaktywne wizualizacje, które kradną show, plotly będzie dla ciebie idealne. Z Plotly, możesz tworzyć wspaniałe, warte publikacji wizualizacje z różnorodnej kolekcji wykresów i grafów, takich jak wykresy rozrzutu i liniowe, wykresy słupkowe, wykresy kołowe, histogramy, mapy cieplne, wykresy konturowe, szeregi czasowe, nazwij to i plotly może to zrobić. Zbudowane na bazie biblioteki plotly.js, wizualizacje plotly mogą być również wyświetlane w aplikacjach internetowych poprzez Dash, w Jupyter Notebooks, lub zapisywane jako pliki HTML. Jeśli jesteś zainteresowany wypróbowaniem pakietu, możesz go zainstalować za pomocą polecenia „install.packages(„plotly”)”.

Inne warte uwagi biblioteki R –

  • BioConductor
  • Knitr
  • Janitor
  • randomForest
  • e1071
  • stringr
  • data.table
  • RMarkdown
  • Rvest

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.