Uma word cloud vazada !

Sem nenhum tratamento, conversão direta de PDF (scaneado) da íntegra da delação premiada  do Sen. Delcídio do Amaral para texto, só para ilustrar como pode ser feita uma Word Cloud com R !

install.packages(c(“BH”, “dplyr”, “ggplot2”, “manipulate”, “mclust”, “R6”, “Rcpp”, “rJava”, “RMySQL”, “RODBC”))
install.packages(“SnowballCC”)
install.packages(“RColorBrewer”)
install.packages(“wordcloud”)
install.packages(“biclust”)
install.packages(“cluster”)
install.packages(“igraph”)
install.packages(“xtable”)
install.packages(“igraph”)
install.packages(“fpc”)
install.packages(“SnowballC”)
install.packages(“Rcampdf”, repos = “http://datacube.wu.ac.at/”, type = “source”)
cname <- file.path(“~”,”DEVEL”,”discurso/texts”)
cname
dir(cname)
docs <- Corpus(DirSource(cname))
summary(docs)
library(tm)
docs <- Corpus(DirSource(cname))
summary(docs)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeWords, stopwords(“portuguese”))
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
docs <- tm_map(docs, PlainTextDocument)
dtm <- DocumentTermMatrix(docs)
tdm <- TermDocumentMatrix(docs)
freq <- colSums(as.matrix(dtm))
ord <- order(freq)
set.seed(142)
library(wordcloud)
wordcloud(names(freq), freq, min.freq=25)
findFreqTerms(dtm, 50)

Para finalizar as palavras repetidas mais no mínimo 50X (em ordem Alfabética):

[1] “acordo” “amaral” “andre” “anexo” “art” “bem” “bumlai”
[8] “carlos” “caso” “cervero” “clausula” “colabora” “colaborador” “coma”
[15] “conhecimento” “corn” “cpi” “declarante” “delcidio” “depoente” “dia”
[22] “dilma” “diretoria” “disse” “empresa” “empresas” “entao” “esteves”
[29] “fatos” “feder” “federal” “gomez” “governo” “gue” “hmin”
[36] “jose” “lava” “lei” “local” “lula” “ministerio” “ministro”
[43] “nao” “navarro” “nestor” “oab” “oliveira” “pagamento” “pessoa”
[50] “petrobras” “pgr” “pmdb” “pre” “presente” “presidente” “publico”
[57] “republica” “sabe” “senador” “ser” “sigilo” “sobre” “sso”
[64] “tambem” “termo” “termos” “todos” “valerio” “valor”

 

Mais informações :

 

https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html

https://cran.r-project.org/web/packages/tm/tm.pdf

https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

 

 

 

Anúncios

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s