R es extremadamente popular entre los mineros de datos y los estadísticos, y parte de la razón es la amplia gama de bibliotecas que viene con R. Estas herramientas y funciones pueden simplificar las tareas estadísticas en gran medida, haciendo que las tareas tales como la manipulación de datos, la visualización, el rastreo web, el aprendizaje automático y más, sean una brisa. Algunas de las bibliotecas se han explicado brevemente a continuación:
dplyr
El paquete dplyr, también conocido como la gramática de la manipulación de datos, esencialmente proporciona herramientas y funciones de uso frecuente para la manipulación de datos, que incluye las siguientes funciones:
- filter(): para filtrar sus datos basados en los criterios
- mutate(): para añadir nuevas variables que actuarán como funciones de las ya existentes
- select(): para seleccionar variables en base a los nombres
- summarise(): ayuda a resumir los datos a partir de múltiples valores
- arrange(): para reorganizar el orden de las filas
- Además, puedes utilizar la función group_by(), que puede devolver los resultados agrupados según los requisitos. Si te apetece comprobar el paquete dplyr, puedes obtenerlo desde el tidyverse o instalar el paquete directamente con el comando «install.packages(«dplyr»).
tidyr
tidyr es uno de los paquetes principales del ecosistema Tidyverse, y como su nombre indica, se utiliza para ordenar datos desordenados. Ahora bien, si te estás preguntando qué son los datos ordenados, déjame que te lo aclare. Un dato ordenado indica que cada columna es variable, cada fila es una observación y cada celda es un valor singular.
Según tidyr, los datos ordenados son una forma de almacenar los datos que se van a utilizar en todo el tidyverse y pueden ayudarte a ahorrar tiempo y ser más productivo con tus análisis. Puede obtener el paquete desde tidyverse o mediante el siguiente comando «install.packages(«tidyr»)».
ggplot2
ggplot2 se encuentra entre las principales bibliotecas de R para la visualización de datos y está siendo utilizado activamente por miles de usuarios de todo el mundo para crear gráficos y diagramas atractivos. La razón detrás de esta popularidad es que ggplot2 fue creado para simplificar el proceso de visualización tomando una entrada mínima del desarrollador, como los datos a visualizar, el estilo y las primitivas a utilizar, dejando el resto a la biblioteca.
El resultado es un gráfico que presenta sin esfuerzo estadísticas complejas para visualizaciones instantáneas. Si quieres añadir más personalización a tus gráficos, puedes utilizar IDEs como RStudio para un control más granular. Puede obtener ggplot2 a través de la colección tidyverse o utilizando la biblioteca independiente mediante el comando «install.packages(«ggplot2″)».
Lea esta documentación de R para conocer las funciones de ggplot2-
lubridate
R es un excelente lenguaje de programación para la Ciencia de Datos, pero hay ciertas áreas en las que R puede sentirse incompleto. Una de esas áreas es el manejo de la fecha y la hora. Para cualquiera que trabaje extensamente con la fecha y la hora en R, puede encontrar sus capacidades incorporadas engorrosas.
Para superar esto, tenemos un práctico paquete llamado lubridate. El paquete no sólo maneja la fecha y la hora estándar en R, sino que también ofrece mejoras adicionales como los periodos de tiempo, los horarios de ahorro de luz diurna, los días bisiestos, soporta varias zonas horarias, el análisis rápido de la hora y muchas funciones de ayuda. Si tu proyecto requiere que trabajes con la hora y la fecha, puedes obtener el paquete lubridate de tidyverse o instalar sólo el paquete con el comando «install.packages(«lubridate»)».
Lee la documentación aquí:
lattice
lattice es otra elegante pero potente librería de visualización de datos centrada en datos multivariantes. Lo que hace especial a esta librería, es que además de manejar las visualizaciones regulares, lattice también viene preparada con soporte para situaciones y requerimientos no estándar. Al ser la implementación práctica de los gráficos Trellis para R, permite crear gráficos Trellis e incluso ofrece opciones para afinar los gráficos según tus requerimientos. lattice viene con R por defecto, pero hay una versión avanzada de lattice llamada latticeExtra, que puede ser útil en caso de que quieras ampliar las características principales que proporciona lattice.
mlr
El Aprendizaje Automático en R(mlr), es una librería que fue lanzada en 2013 y fue actualizada a mlr3 con técnicas más nuevas, una mejor arquitectura y diseño del núcleo en 2019. A partir de ahora, la biblioteca proporciona un marco para abordar varias clasificaciones, regresión, máquinas de vectores de soporte y muchas otras actividades de Aprendizaje Automático.
mlr3 está dirigido a los profesionales e investigadores de Aprendizaje Automático para facilitar la evaluación comparativa y el despliegue de varios algoritmos de Aprendizaje Automático sin mucha molestia. Para aquellos que buscan ampliar e incluso combinar los aprendices existentes y afinar la mejor técnica para una tarea, encontrarán que mlr3 es una opción perfecta. mlr3 se puede instalar utilizando el comando «install.packages(«mlr3″)».
Aquí se menciona la amplia gama de funciones –
caret
Diminutivo de Classification And REgression Training, la biblioteca caret proporciona varias funciones para optimizar el proceso de entrenamiento de modelos para problemas complicados de regresión y clasificación. caret viene con varias herramientas y funciones adicionales para tareas como la división de datos, la estimación de la importancia de las variables, la selección de características, el preprocesamiento y muchas más. Con caret, también se puede medir el rendimiento de los modelos, e incluso ajustar el comportamiento del modelo mediante el uso de varios parámetros como tuneLength o tuneGrid de acuerdo con sus necesidades. El paquete en sí es fácil de usar y sólo carga los componentes necesarios sobre la marcha. La librería se puede instalar con el comando «install.packages(«caret»)».
esquisse
esquisse no es una librería propiamente dicha, sino un addin para la potente librería de visualización de datos ggplot2. Es posible que se pregunte por qué necesitaría esto con ggplot2, permítame que se lo aclare. ggplot2 ya es lo suficientemente inteligente, pero si necesita una capa adicional de intuición para sus visualizaciones, esquisse es el camino correcto. esquisse le permite simplemente arrastrar y soltar los datos requeridos, elegir las opciones de personalización deseadas, y ahí lo tiene, un gráfico a medida construido en un corto período y listo para exportar a su aplicación de elección. Con esquisse, puede crear visualizaciones como gráficos de barras, histogramas, gráficos de dispersión y objetos sf. Puede añadir esquisse a su entorno utilizando «install.packages(«esquisse»)».
shiny
shiny es un marco de aplicación web de RStudio que permite a los desarrolladores crear aplicaciones web interactivas utilizando R con una mínima experiencia en desarrollo web. Con shiny se pueden crear páginas web, visualizaciones interactivas, cuadros de mando e incluso incrustar widgets en documentos de R. shiny también se puede ampliar fácilmente con temas CSS, acciones JavaScript y htmlwidgets para una mayor personalización. Viene con una gran cantidad de atractivos widgets incorporados para la presentación de gráficos, tablas, y la salida de los objetos de R, y todo lo que usted codifica en shiny va en vivo en el mismo instante, eliminando esas molestas actualizaciones frecuentes de la página. Si te convencen las características y quieres darle una oportunidad, puedes conseguir shiny usando el comando «install.packages(«shiny»)».
Rcrawler
Si estás buscando una herramienta para raspar datos de sitios web y además en un formato comprensible, no busques más, Rcrawler es la opción correcta para ti. Con las potentes capacidades de rastreo web, raspado de datos y minería de datos de Rcrawler, no sólo puedes rastrear sitios web y raspar datos, sino también analizar la estructura de red de cualquier sitio web, incluyendo sus hipervínculos internos y externos. En caso de que te preguntes por qué no usar rvest, el paquete Rcrawler es un paso más allá de rvest, ya que recorre todas las páginas de un sitio web y extrae los datos, lo que puede ser extremadamente útil al tratar de reunir toda la información de una sola fuente y de una sola vez. El paquete se puede instalar con el comando «install.packages(«Rcrawler»)».
DT
El paquete DT actúa como una envoltura de la biblioteca de JavaScript llamada DataTables, para R. DT le permite transformar los datos de su matriz de R en una tabla interactiva en su página HTML, lo que facilita la búsqueda, la clasificación y el filtrado de datos. El paquete funciona dejando que la función principal, es decir, la función datatable(), cree un widget HTML para los objetos de R. DT permite un mayor ajuste a través de los argumentos de las «opciones» e incluso una mayor personalización de las tablas, todo ello sin necesidad de profundizar en la codificación. El paquete DT se puede instalar utilizando el comando «install.packages(«DT»)».
plotly
Si quieres crear visualizaciones interactivas que se roben el show, plotly sería perfecto para ti. Con Plotly, puede crear impresionantes visualizaciones dignas de publicación a partir de una diversa colección de tablas y gráficos, como gráficos de dispersión y de líneas, gráficos de barras, gráficos circulares, histogramas, mapas de calor, gráficos de contorno, series temporales, lo que sea y plotly puede hacerlo. Construido sobre la biblioteca plotly.js, las visualizaciones de plotly también se pueden mostrar en aplicaciones web a través de Dash, en Jupyter Notebooks, o guardar como archivos HTML. Si estás interesado en probar el paquete, puedes instalarlo con el comando «install.packages(«plotly»)».
Otras librerías de R de valor –
- BioConductor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- data.table
- RMarkdown
- Rvest