Uma word cloud vazada !

Sem nenhum tratamento, conversão direta de PDF (scaneado) da íntegra da delação premiada  do Sen. Delcídio do Amaral para texto, só para ilustrar como pode ser feita uma Word Cloud com R !

install.packages(c(“BH”, “dplyr”, “ggplot2”, “manipulate”, “mclust”, “R6”, “Rcpp”, “rJava”, “RMySQL”, “RODBC”))
install.packages(“SnowballCC”)
install.packages(“RColorBrewer”)
install.packages(“wordcloud”)
install.packages(“biclust”)
install.packages(“cluster”)
install.packages(“igraph”)
install.packages(“xtable”)
install.packages(“igraph”)
install.packages(“fpc”)
install.packages(“SnowballC”)
install.packages(“Rcampdf”, repos = “http://datacube.wu.ac.at/”, type = “source”)
cname <- file.path(“~”,”DEVEL”,”discurso/texts”)
cname
dir(cname)
docs <- Corpus(DirSource(cname))
summary(docs)
library(tm)
docs <- Corpus(DirSource(cname))
summary(docs)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeWords, stopwords(“portuguese”))
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
docs <- tm_map(docs, PlainTextDocument)
dtm <- DocumentTermMatrix(docs)
tdm <- TermDocumentMatrix(docs)
freq <- colSums(as.matrix(dtm))
ord <- order(freq)
set.seed(142)
library(wordcloud)
wordcloud(names(freq), freq, min.freq=25)
findFreqTerms(dtm, 50)

Para finalizar as palavras repetidas mais no mínimo 50X (em ordem Alfabética):

[1] “acordo” “amaral” “andre” “anexo” “art” “bem” “bumlai”
[8] “carlos” “caso” “cervero” “clausula” “colabora” “colaborador” “coma”
[15] “conhecimento” “corn” “cpi” “declarante” “delcidio” “depoente” “dia”
[22] “dilma” “diretoria” “disse” “empresa” “empresas” “entao” “esteves”
[29] “fatos” “feder” “federal” “gomez” “governo” “gue” “hmin”
[36] “jose” “lava” “lei” “local” “lula” “ministerio” “ministro”
[43] “nao” “navarro” “nestor” “oab” “oliveira” “pagamento” “pessoa”
[50] “petrobras” “pgr” “pmdb” “pre” “presente” “presidente” “publico”
[57] “republica” “sabe” “senador” “ser” “sigilo” “sobre” “sso”
[64] “tambem” “termo” “termos” “todos” “valerio” “valor”

 

Mais informações :

 

https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html

https://cran.r-project.org/web/packages/tm/tm.pdf

https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

 

 

 

Introdução ao dplyr

Trecho do livro ” Introdução à análise de dados com R” a ser lançado.

Análise Real

***

Parte do livro Introdução à análise de dados com R.  Este trabalho está em andamento, o texto é bastante preliminar e sofrerá muitas alterações. 

Quer fazer sugestões? Deixe um comentário abaixo ou, se você sabe utilizar o github, acesse aqui.

Não copie ou reproduza este material sem autorização.

Volte para ver atualizações!

***

Eficiente e intuitivo

Com as funções da família apply e similares, você consegue fazer praticamente tudo o que você precisa para explorar os dados e deixá-los no(s) formato(s) necessário(s) para análise. E é importante você ser exposto a essas funções para se familiarizar com o ambiente base do R.

Entretanto, muitas vezes essas funções podem ser pouco intuitivas para o iniciante e, além disso, deixar a desejar em performance. Como alternativa, existe um pacote bastante rápido para manipulação de data.frames e com sintaxe muito intuitiva chamado dplyr. É provável que para…

Ver o post original 753 mais palavras

O que é ETL?

Um passo muito importante na construção de uma arquitetura corporativa de integração de dados e análise.

Viviane Ribeiro

ETL, vem do inglês Extract Transform Load, ou seja, Extração Transformação Carga. O ETL visa trabalhar com toda a parte de extração de dados de fontes externas, transformação para atender às necessidades de negócios e carga dos dados dentro do Data Warehouse (Para entender o conceito de Data Warehouse, leia o post sobre “O que é o Data Warehouse?”). O foco deste artigo é a utilização do ETL voltado para Data Warehouse, mas você pode utilizar as ferramentas de ETL para fazer todo tipo de trabalho de importação, exportação, transformação de dados para outros ambientes de banco de dados ou para outras necessidades a serem endereçadas.

Os projetos de data warehouse consolidam dados de diferentes fontes. A maioria dessas fontes tendem a ser bancos de dados relacionais ou flat files, mas podem existir outros tipos de fontes também. Um sistema ETL precisa ser capaz de se comunicar…

Ver o post original 553 mais palavras