博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
9.29
阅读量:5213 次
发布时间:2019-06-14

本文共 1116 字,大约阅读时间需要 3 分钟。

下载一中文长篇小说,并转换成UTF-8编码。

使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。

排除一些无意义词、合并同一词。

import jiebatxt=open('yanxi.txt','r',encoding='utf-8').read()words=jieba.cut(txt)dic={}for w in words:    if len(w)==1:        continue    else:        dic[w]=dic.get(w,0)+1wc=list(dic.items())wc.sort(key=lambda x:x[1],reverse=True)for i in range(20):    print(wc[i])

对词频统计结果做简单的解读。

('黛玉', 10)

('宝玉', 9)
('红楼梦', 4)
('落花', 3)
('葬花', 3)
('黛玉正', 2)
('之间', 2)
('误会', 2)
('不是', 2)
('正当', 2)
('引出', 2)
('声音', 2)
('不由', 2)
('正巧', 2)
('前去', 2)
('再次', 2)
('由此', 2)
('西厢', 2)
('不忍', 2)
('黛玉为', 2)

import jiebatxt=open('yanxi.txt','r',encoding='utf-8').read()words=list(jieba.cut(txt))exc={
'是','正当','为','便','与','欲','也','不','了'}keys=set(words)keys=set(words)-excdic={}for w in keys: dic[w]=words.count(w)wc=list(dic.items())wc.sort(key=lambda x:x[1],reverse=True)for i in range(20): print(wc[i])

(',', 71)

('。', 12)
('黛玉', 10)
('宝玉', 9)
('之', 5)
('听', 4)
('红楼梦', 4)
('亦', 4)
('葬花', 3)
('落花', 3)
('、', 3)
('又', 3)
('《', 3)
('着', 3)
('》', 3)
('而', 3)
('至', 3)
('的', 2)
('误会', 2)
('却', 2)
>>>

转载于:https://www.cnblogs.com/chenyanxi123/p/7612910.html

你可能感兴趣的文章
[ python ] 练习作业 - 2
查看>>
一位90后程序员的自述:如何从年薪3w到30w!
查看>>
HDU-1242-Rescue
查看>>
在.net core上使用Entity FramWork(Db first)
查看>>
Eclipse中如何开启断言(Assert),方法有二
查看>>
System.Net.WebException: 无法显示错误消息,原因是无法找到包含此错误消息的可选资源程序集...
查看>>
压缩图片 待验证
查看>>
冲刺进度条7
查看>>
UIImage 和 iOS 图片压缩UIImage / UIImageVIew
查看>>
MongoDB的数据库、集合的基本操作
查看>>
JS 多种变量定义
查看>>
redis可执行文件说明
查看>>
ajax向后台传递数组
查看>>
剑指offer系列14:包含min函数的栈
查看>>
疯狂JAVA16课之对象与内存控制
查看>>
[转载]树、森林和二叉树的转换
查看>>
WPF移动Window窗体(鼠标点击左键移动窗体自定义行为)
查看>>
1593: [Usaco2008 Feb]Hotel 旅馆 (线段树)
查看>>
软件测试-----Graph Coverage作业
查看>>
django ORM创建数据库方法
查看>>