R é extremamente popular entre Data Miners and Statisticians, e parte da razão é a extensa gama de bibliotecas que vem com R. Estas ferramentas e funções podem simplificar as tarefas estatísticas em grande medida, tornando tarefas como manipulação de dados, visualização, web crawling, Machine Learning e muito mais, uma brisa. Algumas das bibliotecas foram brevemente explicadas abaixo:
dplyr
O pacote dplyr, também conhecido como a gramática de manipulação de dados, fornece essencialmente ferramentas e funções frequentemente usadas para manipulação de dados, que inclui as seguintes funções:
- filter(): para filtrar seus dados com base no critério
- mutate(): para adicionar novas variáveis que irão atuar como funções de variáveis existentes
- select(): para selecionar variáveis baseadas nos nomes
- summarise(): ajuda a resumir os dados de múltiplos valores
- arrange(): para reorganizar a ordem das linhas
- Adicionalmente, você pode usar a função group_by(), que pode retornar os resultados agrupados de acordo com os requisitos. Se você está interessado em verificar o pacote dplyr, você pode obtê-lo no tidyverse ou instalar o pacote diretamente com o comando “install.packages(“dplyr”).
tidyr
tidyr é um dos pacotes centrais no ecossistema Tidyverse, e como o nome sugere, ele é usado para arrumar dados confusos. Agora, se você está se perguntando o que são dados arrumados, deixe-me limpá-los para você. Um dado arrumado indica que cada coluna é variável, cada linha é uma observação e cada célula é um valor singular.
De acordo com o tidyyr, os dados arrumados são uma forma de armazenar os dados que devem ser usados em todo o tidyverse e podem ajudá-lo a economizar tempo e ser mais produtivo com sua análise. Você pode obter o pacote do tidyverse ou pelo seguinte comando “install.packages(“tidyr”)”.
ggplot2
ggplot2 está entre as principais bibliotecas R para visualização de dados e está sendo ativamente usado por milhares de usuários ao redor do mundo para criar gráficos, gráficos e plotagens convincentes. A razão por trás desta popularidade é o ggplot2 foi criado para simplificar o processo de visualização, tomando o mínimo de entrada do desenvolvedor, como os dados a serem visualizados, o estilo e os primitivos a serem usados, deixando o resto na biblioteca.
O resultado é um gráfico que apresenta sem esforço estatísticas complexas para visualizações instantâneas. Se você está procurando adicionar mais personalização aos seus gráficos, você pode usar IDEs como o RStudio para um controle mais granular. Você pode colocar suas mãos no ggplot2 através da coleção tidyverse ou usando a biblioteca autônoma através do comando “install.packages(“ggplot2″)”.
Ler esta documentação R para saber sobre as funções do ggplot2-
lubridate
R é uma excelente linguagem de programação para Data Science, mas existem certas áreas onde R pode se sentir incompleto. Uma dessas áreas é o manuseio de data e hora. Para qualquer um que trabalhe extensivamente com data e hora em R, pode achar as capacidades embutidas complicadas.
Para superar isso, nós temos um pacote prático chamado lubridate. O pacote não só trata da data e hora padrão em R, mas também oferece melhorias adicionais como períodos de tempo, horário de verão, dias bissextos, suporta vários fusos horários, análise rápida da hora, e muitas funções de ajuda. Caso seu projeto precise trabalhar com hora e data, você pode obter o pacote lubridate do tidyverse ou instalar apenas o pacote com o comando “install.packages(“lubridate”)”.
Ler a documentação aqui:
lattice
lattice é outra elegante mas poderosa biblioteca de visualização de dados focada em dados multivariados. O que torna esta biblioteca especial, é que além de lidar com as visualizações regulares, a malha também vem preparada com suporte para situações e requisitos não-padronizados. Devido a ser a implementação prática dos gráficos Trellis para R, ela permite que você crie gráficos Trellis e até oferece opções para afinar os gráficos de acordo com seus requisitos. A treliça vem com R por padrão, mas há uma versão avançada da treliça chamada latticeExtra, que pode vir a ser útil caso você queira estender as características principais fornecidas pela treliça.
mlr
The Machine Learning in R(mlr), é uma biblioteca que foi lançada em 2013 e foi atualizada para mlr3 com técnicas mais recentes, uma arquitetura melhor, e design do núcleo em 2019. A partir de agora, a biblioteca fornece uma estrutura para abordar várias classificações, regressão, suporte a máquinas vetoriais e muitas outras atividades de Machine Learning.
mlr3 é direcionada a profissionais e pesquisadores de Machine Learning para facilitar o benchmarking e a implantação de vários algoritmos de Machine Learning sem muita complicação. Para aqueles que procuram estender e até combinar os aprendizes existentes e afinar a melhor técnica para uma tarefa, encontrarão o mlr3 como uma opção perfeita. mlr3 pode ser instalado usando o comando “install.packages(“mlr3″)”.
A ampla gama de funções é mencionada aqui –
caret
Short for Classification And REgression Training, a biblioteca de caretas fornece várias funções para otimizar o processo de treinamento do modelo para problemas complicados de regressão e classificação. caret vem com várias ferramentas e funções adicionais para tarefas como divisão de dados, estimativa de importância variável, seleção de características, pré-processamento, e muito mais. Com o caret, você também pode medir o desempenho dos modelos, e até mesmo ajustar o comportamento do modelo usando vários parâmetros como tuneLength ou tuneGrid, de acordo com suas necessidades. O pacote em si é fácil de usar e carrega apenas os componentes necessários à medida que avança. A biblioteca pode ser instalada com o comando “install.packages(“caret”)”.
esquisse
esquisse não é uma biblioteca em si, mas um addin para a poderosa biblioteca de visualização de dados ggplot2. Você pode estar se perguntando porque você precisaria disto com o ggplot2, deixe-me limpá-lo para você. ggplot2 já é suficientemente inteligente, mas se você precisa de uma camada adicional de intuitividade para suas visualizações, esquisse é o caminho certo. esquisse permite que você simplesmente arraste e solte os dados necessários, escolha as opções de personalização desejadas, e aí você tem, um gráfico personalizado construído dentro de um curto período e pronto para exportar para sua aplicação de escolha. Com o esquisse, você pode criar visualizações como gráficos de barra, histogramas, gráficos de dispersão, sf objetos. Você pode adicionar o esquisse ao seu ambiente usando “install.packages(“esquisse”)”.
shiny
shiny é um framework de aplicações web do RStudio que permite aos desenvolvedores criar aplicações web interativas usando R com o mínimo de fundo de desenvolvimento web. Com brilhante, você pode construir páginas web, visualizações interativas, dashboards e até mesmo incorporar widgets em documentos R. Brilhante também pode ser facilmente estendido com temas CSS, ações JavaScript e htmlwidgets para customização adicional. Ele vem com uma série de atraentes widgets embutidos para apresentar gráficos, tabelas e saída de objetos R, e o que quer que você codifique em brilhante vai ao vivo no mesmo instante, eliminando aquelas irritantes atualizações freqüentes de página. Se você é vendido nos recursos e quer dar uma chance, você pode ficar brilhante usando o comando “install.packages(“brilhante”)”.
Rcrawler
Se você está procurando uma ferramenta para raspar dados de sites e isso também em um formato compreensível, não procure mais, Rcrawler é a opção certa para você. Com os poderosos recursos de rastreamento, raspagem e mineração de dados do Rcrawler, você pode não só rastrear através de websites e dados de raspagem, mas também analisar a estrutura de rede de qualquer website, incluindo seus hyperlinks internos e externos. Caso você esteja se perguntando por que não usar o rcrawler, o pacote Rcrawler é um passo à frente do rvest ao percorrer todas as páginas de um site e extrair os dados, o que pode ser extremamente útil ao tentar reunir todas as informações de uma só fonte e de uma só vez. O pacote pode ser instalado com o comando “install.packages(“Rcrawler”)”.
DT
O pacote DT atua como um wrapper da biblioteca JavaScript chamada DataTables, pois o R. DT permite que você transforme os dados em sua matriz R em uma tabela interativa em sua página HTML, o que facilita a busca, ordenação e filtragem de dados. O pacote funciona deixando a função principal, ou seja, a função datatable(), criar um widget HTML para os objetos R. O DT permite um ajuste mais fino através dos argumentos de “opções” e até mesmo alguma personalização adicional em suas tabelas, tudo isso sem entrar profundamente na codificação. O pacote DT pode ser instalado usando o comando “install.packages(“DT”)”.
plotly
Se você quiser criar visualizações interativas que roubem o show, plotly seria perfeito para você. Com Plotly, você pode criar visualizações impressionantes e dignas de publicação a partir de uma coleção diversa de gráficos e gráficos, tais como gráficos de dispersão e linhas, gráficos de barras, gráficos de torta, histogramas, heatmaps, gráficos de contorno, séries temporais, você dá um nome e o Plotly pode fazer isso. Construído sobre a biblioteca plotly.js, as visualizações plotly também podem ser exibidas em aplicações web via Dash, em Notebooks Jupyter, ou salvas como arquivos HTML. Se você estiver interessado em experimentar o pacote, você pode instalá-lo usando o comando “install.packages(“plotly”)”.
Outros Bibliotecas de Valor R –
- BioCondutor
- Knitr
- Janitor
- randomForest
- e1071
- stringr
- dados.tabela
- RMarkdown
- Rvest