前天的开幕式上,总书记给我们作了将近3个多小时的汇报,各方媒体已经全面的解读了这份报告,本次小编将教大家用python,来做一个简单的分析,先上结果!

通过统计出报告中的高频词汇,我们可以得到上面两张图,第一张,是高频词云图,第二张,就是我们高频词对应的出现的次数了。

从这些数据中,我们发现,“发展”仍然是最重要的,“人民”也是“中国”最重要的中心,同时,我们还要"坚持""建设""社会主义"现代化"国家",通过这个统计,可以大概了解到总书记强调的重点了吧!

那么接下来,有条件的看官们,可以试着自己动手做一做,相关的资料,会上传到公众号的后台。

环境部分

本次小程序,主要用到jieba分词,以及wordcloud词云的模块和Pillow绘图相关模块(需要matplotlib),如果大家之前已经安装完成,那么就可以继续往下看,否则可以尝试着去安装一下所需要的环境。

其中大多数可以直接通过pip install在线安装,如果不巧安装失败,麻烦去http://www.lfd.uci.edu/~gohlke/pythonlibs/下载对应安装包,手动pip安装即可

代码部分

首先,导入相关的库文件(本公众号代码,可以在后台回复“分词总结重要讲话”下载):

然后,将重要讲话报告给存到一个txt中,注意文件编码为utf-8。

接下来,读取txt内容,通过jieba进行分词操作,并利用Counter进行统计操作

这时候,运行看一下结果,会发现有标点符号等被误统计,我们进行一个简单的数据清洗过滤的操作,把单个字符给从列表中删除:

至此,我们的分词工作就完成了,得到了一组高频词汇,我们可以通过print,看到内容大致如上文展示的第二幅图片,下面,我们考虑利用词云将其可视化。

我们特地选取了一张红色中国地图,作为词云的背景图案:

下面,我们将这幅图读入内存,并配置词云参数:

这边需要注意一点,本文使用的字体是simhei.ttf,可以更换成其他的字体,需要包含到项目中,也可以使用绝对路径读取。如果不设置字体,你会看到一个个空方框。

接下来,我们首先介绍一下,随机填充版本,如果不指定填充方式,wordcloud会进行默认随机的填充,代码片段如下:

这个得到的结果如下:

由于我们设置最多显示2000个词,所以这张图看上去十分密集,我们可以通过减少这个量,使得变得稀疏一点。

还有一种方式是按照图本身的颜色上色,这个可以用作底图颜色不完全一致的情况下,可能会得到较好的效果,修改部分代码如下即可:

其效果如下:

整体并没有多么深奥的编程知识,只要懂得一点编程知识,就可以完成这项工作,大家可以试试哦!

在后台回复“分词总结重要讲话”下载代码!

HelloWorld少儿编程新近推出的Python课程可以满足你的学习需求。

Python语法(

适合学员:

8岁以上零基础学生

课程内容:

收费:

1920元

按每周一次的学习进度,每天只需16元!

参与学习方式:

  1. 方式一:登陆http://www.helloworldroom.com/course/83,完成注册登陆后即可购买课程。

  2. 方式二:登陆淘宝购买课程。

    【【HelloWorld少儿编程】Python语法(上)】,复制这条信息¥e0OS0fk4d3k¥后打开手机淘宝

Python语法(下)

适合学员:

8岁以上零基础学生

课程内容:

收费:

1920元

按每周一次的学习进度,每天只需16元!

参与学习方式:

  1. 方式一:登陆http://www.helloworldroom.com/course/84,完成注册登陆后即可购买课程。

  2. 方式二:登陆淘宝购买课程。

    【【HelloWorld少儿编程】Python语法(下)】,复制这条信息¥PJDM0fkSGAF¥后打开手机淘宝

Python小游戏

适合学员:

8岁以上有Python语法基础的学生

课程内容:

收费:

1200元

按每周一次的学习进度,每天只需17元!

参与学习方式:

  1. 方式一:登陆http://www.helloworldroom.com/course/85,完成注册登陆后即可购买课程。

  2. 方式二:登陆淘宝购买课程。

    【Python小游戏】,复制这条信息¥rTjj0fPFIDB¥后打开手机淘宝