Loading... [在线预览代码运行结果](http://blog.a152.top/usr/uploads/2022/02/3536579286.html) [test.txt](http://blog.a152.top/usr/uploads/2022/02/513486527.txt) 被分词的文件 这次经历起源是帮助一位新手解决分词问题,他并不会pandas,所以他用了最基础的统计方法 ```python import os import jieba import jieba.posseg as psg import re import pandas as pd ``` 导入包,虽然有些包没有用到,我这是基于他的基础之上改的 ```python f=open('test.txt',encoding='utf-8') words=f.read() juzi=[i.replace(' ','') for i in words.split('\n')] ``` 读取文件,并且按照局子分割,去除空格,其实应该还把符号去除了,但想想应该不会影响大局 ```python df=[] for i in juzi: for j,k in psg.cut(i): # j是分的词,k是词性 df.append([j,k]) ``` 开始分词,这个没啥好学习的,看懂就行 j是分的词,k是词性 ```python flag_list = ['n','nz','vn',"ns"]#a,形容词,v,形容词 df=pd.DataFrame(df) df.columns=['词','词性'] df.groupby('词性').count().loc[['n','nz','vn',"ns"]] #loc 显示索引 ``` 他只需要flag_list中的词性统计,他就是在这里之后,统计代码不会写了,但是我给他了一种更好的方法 就是用groupby按照词性统计了一下,然后用loc选择需要的就可以了,他后面应该还写了排序sort_values. 我基本上都删掉了,这个应该是学考的难度了 Last modification:February 1, 2022 © Allow specification reprint Support Appreciate the author AliPayWeChat Like 3 如果觉得我的内容对你有用,请随意赞赏