在线预览代码运行结果

test.txt 被分词的文件

这次经历起源是帮助一位新手解决分词问题,他并不会pandas,所以他用了最基础的统计方法

import os
import jieba
import jieba.posseg as psg
import re
import pandas as pd

导入包,虽然有些包没有用到,我这是基于他的基础之上改的

f=open('test.txt',encoding='utf-8')
words=f.read()
juzi=[i.replace(' ','') for i in words.split('\n')]

读取文件,并且按照局子分割,去除空格,其实应该还把符号去除了,但想想应该不会影响大局

df=[]
for i in juzi:
    for j,k in psg.cut(i):
        # j是分的词,k是词性
        df.append([j,k])

开始分词,这个没啥好学习的,看懂就行

j是分的词,k是词性

flag_list = ['n','nz','vn',"ns"]#a,形容词,v,形容词

df=pd.DataFrame(df)

df.columns=['词','词性']

df.groupby('词性').count().loc[['n','nz','vn',"ns"]]
#loc 显示索引

他只需要flag_list中的词性统计,他就是在这里之后,统计代码不会写了,但是我给他了一种更好的方法

就是用groupby按照词性统计了一下,然后用loc选择需要的就可以了,他后面应该还写了排序sort_values.

我基本上都删掉了,这个应该是学考的难度了

Last modification:February 1, 2022
如果觉得我的内容对你有用,请随意赞赏