test.txt 被分词的文件
这次经历起源是帮助一位新手解决分词问题,他并不会pandas,所以他用了最基础的统计方法
import os
import jieba
import jieba.posseg as psg
import re
import pandas as pd
导入包,虽然有些包没有用到,我这是基于他的基础之上改的
f=open('test.txt',encoding='utf-8')
words=f.read()
juzi=[i.replace(' ','') for i in words.split('\n')]
读取文件,并且按照局子分割,去除空格,其实应该还把符号去除了,但想想应该不会影响大局
df=[]
for i in juzi:
for j,k in psg.cut(i):
# j是分的词,k是词性
df.append([j,k])
开始分词,这个没啥好学习的,看懂就行
j是分的词,k是词性
flag_list = ['n','nz','vn',"ns"]#a,形容词,v,形容词
df=pd.DataFrame(df)
df.columns=['词','词性']
df.groupby('词性').count().loc[['n','nz','vn',"ns"]]
#loc 显示索引
他只需要flag_list中的词性统计,他就是在这里之后,统计代码不会写了,但是我给他了一种更好的方法
就是用groupby按照词性统计了一下,然后用loc选择需要的就可以了,他后面应该还写了排序sort_values.
我基本上都删掉了,这个应该是学考的难度了