R ist bei Data Minern und Statistikern äußerst beliebt, und ein Teil des Grundes dafür ist das umfangreiche Angebot an Bibliotheken, das mit R geliefert wird. Diese Tools und Funktionen können statistische Aufgaben in hohem Maße vereinfachen und machen Aufgaben wie Datenmanipulation, Visualisierung, Web-Crawling, maschinelles Lernen und mehr zu einem Kinderspiel. Einige der Bibliotheken werden im Folgenden kurz erläutert:

dplyr

Das dplyr-Paket, das auch als Grammatik der Datenmanipulation bekannt ist, stellt im Wesentlichen häufig verwendete Werkzeuge und Funktionen für die Datenmanipulation bereit, darunter die folgenden Funktionen:

  • filter(): zum Filtern Ihrer Daten anhand von Kriterien
  • mutate(): zum Hinzufügen neuer Variablen, die als Funktionen vorhandener Variablen fungieren
  • select(): zum Auswählen von Variablen auf der Grundlage der Namen
  • summarise(): zum Zusammenfassen der Daten aus mehreren Werten
  • arrange(): zum Umordnen der Zeilen
  • Zusätzlich können Sie die Funktion group_by() verwenden, die die Ergebnisse entsprechend den Anforderungen gruppiert zurückgeben kann. Wenn Sie das dplyr-Paket ausprobieren möchten, können Sie es entweder aus dem tidyverse beziehen oder das Paket direkt mit dem Befehl „install.packages(„dplyr“)“ installieren.

tidyr

tidyr ist eines der Kernpakete im Tidyverse-Ökosystem, und wie der Name schon sagt, dient es dazu, unordentliche Daten aufzuräumen. Wenn Sie sich jetzt fragen, was aufgeräumte Daten sind, möchte ich es Ihnen erklären. Tidy Data bedeutet, dass jede Spalte eine Variable, jede Zeile eine Beobachtung und jede Zelle ein einzelner Wert ist.

Laut tidyr ist Tidy Data eine Möglichkeit, Daten zu speichern, die im gesamten tidyverse-System verwendet werden und Ihnen dabei helfen können, Zeit zu sparen und produktiver mit Ihrer Analyse zu sein. Sie können das Paket von tidyverse oder durch den folgenden Befehl „install.packages(„tidyr“)“ erhalten.

ggplot2

ggplot2 gehört zu den Top R-Bibliotheken für die Datenvisualisierung und wird von Tausenden von Benutzern auf der ganzen Welt aktiv genutzt, um überzeugende Diagramme, Graphen und Plots zu erstellen. Der Grund für diese Beliebtheit ist, dass ggplot2 entwickelt wurde, um den Visualisierungsprozess zu vereinfachen, indem es nur minimale Eingaben des Entwicklers benötigt, wie z. B. die zu visualisierenden Daten, den Stil und die zu verwendenden Primitive, während der Rest der Bibliothek überlassen wird.

Das Ergebnis ist ein Diagramm, das mühelos komplexe Statistiken für sofortige Visualisierungen darstellt. Wenn Sie Ihre Diagramme noch weiter anpassen möchten, können Sie IDEs wie RStudio für eine genauere Steuerung verwenden. Sie können ggplot2 über die tidyverse-Sammlung oder die eigenständige Bibliothek mit dem Befehl „install.packages(„ggplot2″)“ nutzen.

Lesen Sie diese R-Dokumentation, um mehr über die ggplot2-Funktionen zu erfahren-

lubridate

R ist eine hervorragende Programmiersprache für Data Science, aber es gibt bestimmte Bereiche, in denen sich R unvollständig anfühlt. Ein solcher Bereich ist die Handhabung von Datum und Zeit. Wer ausgiebig mit Datum und Uhrzeit in R arbeitet, wird die eingebauten Fähigkeiten als umständlich empfinden.

Um dies zu überwinden, haben wir ein praktisches Paket namens lubridate. Das Paket behandelt nicht nur das Standarddatum und die Standardzeit in R, sondern bietet auch zusätzliche Erweiterungen wie Zeiträume, Sommerzeit, Schalttage, unterstützt verschiedene Zeitzonen, schnelles Zeitparsing und viele Hilfsfunktionen. Sollte Ihr Projekt die Arbeit mit Zeit und Datum erfordern, können Sie das lubridate-Paket von tidyverse beziehen oder nur das Paket mit dem Befehl „install.packages(„lubridate“)“ installieren.

Lesen Sie die Dokumentation hier:

lattice

lattice ist eine weitere elegante und dennoch leistungsfähige Datenvisualisierungsbibliothek, die sich auf multivariate Daten konzentriert. Das Besondere an dieser Bibliothek ist, dass sie nicht nur die üblichen Visualisierungen beherrscht, sondern auch Unterstützung für nicht standardisierte Situationen und Anforderungen bereithält. Da es sich um die praktische Implementierung von Trellis-Grafiken für R handelt, können Sie Trellis-Graphen erstellen und haben sogar die Möglichkeit, die Graphen entsprechend Ihren Anforderungen zu optimieren. lattice wird standardmäßig mit R geliefert, aber es gibt eine erweiterte Version von lattice namens latticeExtra, die sich als nützlich erweisen könnte, wenn Sie die Kernfunktionen von lattice erweitern möchten.

mlr

Das maschinelle Lernen in R (mlr), ist eine Bibliothek, die 2013 veröffentlicht wurde und 2019 mit neueren Techniken, einer besseren Architektur und einem neuen Kerndesign zu mlr3 aktualisiert wurde. Ab sofort bietet die Bibliothek ein Framework für verschiedene Klassifizierungen, Regressionen, Support-Vektor-Maschinen und viele andere Machine-Learning-Aktivitäten.

mlr3 richtet sich an Machine-Learning-Praktiker und Forscher, um das Benchmarking und den Einsatz verschiedener Machine-Learning-Algorithmen ohne großen Aufwand zu erleichtern. Wer die vorhandenen Lerner erweitern und sogar kombinieren und die beste Technik für eine Aufgabe feinabstimmen möchte, für den ist mlr3 eine perfekte Option. mlr3 kann mit dem Befehl „install.packages(„mlr3″)“ installiert werden.

Das breite Spektrum an Funktionen wird hier erwähnt –

caret

Kurz für Classification And REgression Training, die caret-Bibliothek bietet verschiedene Funktionen, um den Prozess des Modelltrainings für knifflige Regressions- und Klassifizierungsprobleme zu optimieren. caret kommt mit verschiedenen zusätzlichen Werkzeugen und Funktionen für Aufgaben wie Datensplitting, Variablenbedeutungsschätzung, Merkmalsauswahl, Pre-Processing und viele mehr. Mit caret können Sie auch die Leistung der Modelle messen und sogar das Verhalten des Modells mit verschiedenen Parametern wie tuneLength oder tuneGrid entsprechend Ihren Anforderungen feineinstellen. Das Paket selbst ist einfach zu benutzen und lädt nur die notwendigen Komponenten nach und nach. Die Bibliothek kann mit dem Befehl „install.packages(„caret“)“ installiert werden.

esquisse

esquisse ist keine Bibliothek im eigentlichen Sinne, sondern ein Addin für die leistungsfähige Datenvisualisierungsbibliothek ggplot2. Sie werden sich vielleicht fragen, warum Sie das bei ggplot2 brauchen, lassen Sie mich das für Sie klären. ggplot2 ist bereits intelligent genug, aber wenn Sie eine zusätzliche Ebene der Intuitivität für Ihre Visualisierungen benötigen, ist esquisse der richtige Weg. esquisse ermöglicht es Ihnen, die benötigten Daten einfach per Drag & Drop zu ziehen, die gewünschten Anpassungsoptionen auszuwählen, und schon haben Sie einen maßgeschneiderten Plot, der innerhalb kurzer Zeit erstellt wird und bereit ist, in die Anwendung Ihrer Wahl zu exportieren. Mit esquisse können Sie Visualisierungen wie Balkendiagramme, Histogramme, Streudiagramme und sf-Objekte erstellen. Sie können esquisse zu Ihrer Umgebung hinzufügen, indem Sie „install.packages(„esquisse“)“ verwenden.

shiny

shiny ist ein Webapplikations-Framework von RStudio, das es Entwicklern ermöglicht, interaktive Webapplikationen unter Verwendung von R mit minimalen Webentwicklungskenntnissen zu erstellen. Mit shiny können Sie Webseiten, interaktive Visualisierungen und Dashboards erstellen und sogar Widgets in R-Dokumente einbetten. shiny kann auch leicht mit CSS-Themen, JavaScript-Aktionen und htmlwidgets für zusätzliche Anpassungen erweitert werden. Es verfügt über eine Vielzahl attraktiver integrierter Widgets für die Darstellung von Plots, Tabellen und Ausgaben von R-Objekten, und alles, was Sie in shiny codieren, wird sofort live geschaltet, so dass die lästigen häufigen Seitenaktualisierungen entfallen. Wenn Sie von den Funktionen überzeugt sind und es ausprobieren möchten, können Sie Shiny mit dem Befehl „install.packages(„shiny“)“ installieren.

Rcrawler

Wenn Sie nach einem Tool suchen, mit dem Sie Daten von Websites auslesen können, und das auch noch in einem verständlichen Format, dann ist Rcrawler die richtige Wahl für Sie. Mit Rcrawlers leistungsstarken Webcrawling-, Data Scraping- und Data Mining-Fähigkeiten können Sie nicht nur Websites durchforsten und Daten auslesen, sondern auch die Netzwerkstruktur jeder Website analysieren, einschließlich ihrer internen und externen Hyperlinks. Falls Sie sich fragen, warum Sie nicht rvest verwenden sollten: Das Paket Rcrawler ist eine Steigerung von rvest, da es alle Seiten einer Website durchsucht und die Daten extrahiert, was äußerst hilfreich sein kann, wenn man versucht, alle Informationen aus einer Quelle und in einem Rutsch zu sammeln. Das Paket kann mit dem Befehl „install.packages(„Rcrawler“)“ installiert werden.

DT

Das DT-Paket fungiert als Wrapper der JavaScript-Bibliothek namens DataTables für R. DT ermöglicht es Ihnen, die Daten in Ihrer R-Matrix in eine interaktive Tabelle auf Ihrer HTML-Seite umzuwandeln, was eine einfache Suche, Sortierung und Filterung von Daten ermöglicht. Das Paket funktioniert so, dass die Hauptfunktion, d.h. die datatable()-Funktion, ein HTML-Widget für die R-Objekte erstellt. DT ermöglicht eine weitere Feinabstimmung über die „options“-Argumente und sogar einige zusätzliche Anpassungsmöglichkeiten für Ihre Tabellen, und das alles, ohne tief in die Kodierung einzudringen. Das DT-Paket kann mit dem Befehl „install.packages(„DT“)“ installiert werden.

plotly

Wenn Sie interaktive Visualisierungen erstellen wollen, die Ihnen die Show stehlen, ist Plotly perfekt für Sie. Mit Plotly können Sie atemberaubende, veröffentlichungswürdige Visualisierungen aus einer vielfältigen Sammlung von Diagrammen und Grafiken erstellen, wie z. B. Streu- und Liniendiagramme, Balkendiagramme, Kuchendiagramme, Histogramme, Heatmaps, Konturdiagramme, Zeitreihen – was immer Sie wollen, Plotly kann es. Aufgebaut auf der plotly.js-Bibliothek, können Plotly-Visualisierungen auch in Webanwendungen über Dash, in Jupyter Notebooks oder als HTML-Dateien gespeichert werden. Wenn Sie das Paket ausprobieren möchten, können Sie es mit dem Befehl „install.packages(„plotly“)“ installieren.

Andere wertvolle R-Bibliotheken –

  • BioConductor
  • Knitr
  • Janitor
  • randomForest
  • e1071
  • stringr
  • data.Tabelle
  • RMarkdown
  • Rvest

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.