Georgia Mapping in R — acarioli

You can download session 9 files for constructing the population pyramids of Georgia here: https://github.com/rladies/meetup-presentations_tbilisi and specify your working directory with setwd(“/Users/mydomain/myfolder/”) Plot neighbouring countries plot maps add labels for the countries let’s add everything (or almost everything) together check georgia@data print labels on the map labels for admin 2 Upload data from World Bank […]

via Georgia Mapping in R — acarioli

Anúncios

Uma word cloud vazada !

Sem nenhum tratamento, conversão direta de PDF (scaneado) da íntegra da delação premiada  do Sen. Delcídio do Amaral para texto, só para ilustrar como pode ser feita uma Word Cloud com R !

install.packages(c(“BH”, “dplyr”, “ggplot2”, “manipulate”, “mclust”, “R6”, “Rcpp”, “rJava”, “RMySQL”, “RODBC”))
install.packages(“SnowballCC”)
install.packages(“RColorBrewer”)
install.packages(“wordcloud”)
install.packages(“biclust”)
install.packages(“cluster”)
install.packages(“igraph”)
install.packages(“xtable”)
install.packages(“igraph”)
install.packages(“fpc”)
install.packages(“SnowballC”)
install.packages(“Rcampdf”, repos = “http://datacube.wu.ac.at/”, type = “source”)
cname <- file.path(“~”,”DEVEL”,”discurso/texts”)
cname
dir(cname)
docs <- Corpus(DirSource(cname))
summary(docs)
library(tm)
docs <- Corpus(DirSource(cname))
summary(docs)
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, tolower)
docs <- tm_map(docs, removeWords, stopwords(“portuguese”))
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
docs <- tm_map(docs, PlainTextDocument)
dtm <- DocumentTermMatrix(docs)
tdm <- TermDocumentMatrix(docs)
freq <- colSums(as.matrix(dtm))
ord <- order(freq)
set.seed(142)
library(wordcloud)
wordcloud(names(freq), freq, min.freq=25)
findFreqTerms(dtm, 50)

Para finalizar as palavras repetidas mais no mínimo 50X (em ordem Alfabética):

[1] “acordo” “amaral” “andre” “anexo” “art” “bem” “bumlai”
[8] “carlos” “caso” “cervero” “clausula” “colabora” “colaborador” “coma”
[15] “conhecimento” “corn” “cpi” “declarante” “delcidio” “depoente” “dia”
[22] “dilma” “diretoria” “disse” “empresa” “empresas” “entao” “esteves”
[29] “fatos” “feder” “federal” “gomez” “governo” “gue” “hmin”
[36] “jose” “lava” “lei” “local” “lula” “ministerio” “ministro”
[43] “nao” “navarro” “nestor” “oab” “oliveira” “pagamento” “pessoa”
[50] “petrobras” “pgr” “pmdb” “pre” “presente” “presidente” “publico”
[57] “republica” “sabe” “senador” “ser” “sigilo” “sobre” “sso”
[64] “tambem” “termo” “termos” “todos” “valerio” “valor”

 

Mais informações :

 

https://rstudio-pubs-static.s3.amazonaws.com/31867_8236987cf0a8444e962ccd2aec46d9c3.html

https://cran.r-project.org/web/packages/tm/tm.pdf

https://cran.r-project.org/web/packages/tm/vignettes/tm.pdf

 

 

 

Introdução ao dplyr

Trecho do livro ” Introdução à análise de dados com R” a ser lançado.

Análise Real

***

Parte do livro Introdução à análise de dados com R.  Este trabalho está em andamento, o texto é bastante preliminar e sofrerá muitas alterações. 

Quer fazer sugestões? Deixe um comentário abaixo ou, se você sabe utilizar o github, acesse aqui.

Não copie ou reproduza este material sem autorização.

Volte para ver atualizações!

***

Eficiente e intuitivo

Com as funções da família apply e similares, você consegue fazer praticamente tudo o que você precisa para explorar os dados e deixá-los no(s) formato(s) necessário(s) para análise. E é importante você ser exposto a essas funções para se familiarizar com o ambiente base do R.

Entretanto, muitas vezes essas funções podem ser pouco intuitivas para o iniciante e, além disso, deixar a desejar em performance. Como alternativa, existe um pacote bastante rápido para manipulação de data.frames e com sintaxe muito intuitiva chamado dplyr. É provável que para…

Ver o post original 753 mais palavras