博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Rstudio 实现 爬虫 文本分词 个性化词云设计--我爱中国我爱党
阅读量:4655 次
发布时间:2019-06-09

本文共 927 字,大约阅读时间需要 3 分钟。

Rstudio 爬虫 文本分词个性化词云设计

  • 目录

  1、环境准备,加载依赖

  2、rvest 爬虫,数据爬取

  3、jiebaR用于分词,词频统计

  4、wordcloud2 结果可视化

===============================================================================================================================================

1、环境准备,加载依赖

2、数据爬取

3、数据清洗

4、词云设计

install.packages("wordcloud2")install.packages("rvest")install.packages("jiebaR")library(wordcloud2)library(rvest)library(jiebaR)# 开始爬虫url<-'http://www.gov.cn/premier/2017-03/16/content_5177940.htm'#读取数据,规定编码web<-read_html(url,encoding="utf-8") position<-web %>% html_nodes("div.pages_content") %>% html_text()# jieba分词,词频统计#初始化分词引擎并加载停用词。engine_s<-worker(stop_word = "stopwords.txt")#分词seg<-segment(position,engine_s)#统计词频f<-freq(seg)#根据词频降序排列f<-f[order(f[2],decreasing=TRUE),]#基于wordcloud2包进行可视化#总共有2000多个词,为了显示效果,我只提取前150个字f2<-f2[1:150,]    #形状设置为一颗五角星wordcloud2(f2, size = 0.8 ,shape='star')

 

转载于:https://www.cnblogs.com/RHadoop-Hive/p/8929904.html

你可能感兴趣的文章
Linux的学习:
查看>>
JavaScript中的原型继承原理
查看>>
Python logger模块
查看>>
jquery控制css的display(控制元素的显示与隐藏)
查看>>
关于python做人工智能的一个网页(很牛逼)
查看>>
判断控件的CGRect是否重合,获取控件的最大XY值
查看>>
POJ-1128 Frame Stacking
查看>>
python第三十九课——面向对象(二)之初始化属性
查看>>
GET请求在Tomcat中的传递及URI传递
查看>>
JavaScript 复杂判断的更优雅写法借鉴
查看>>
<mvc:annotation-driven/>浅析
查看>>
ArcEngine开发之自定义工具
查看>>
SQL视频总结
查看>>
P4878 道路修建-美国
查看>>
dp练习
查看>>
vim
查看>>
maze_travel的隐私声明
查看>>
对正则表达式又重新学了一遍,笔记方便以后查阅
查看>>
UIKit应用 - Swift 版本: 3.让UITableViewCell的背景色渐变
查看>>
Java反射
查看>>