PyNLPIR使用

摘要:pynlpir的安装及简单使用

1 安装

PyNLPIR官网地址

1
pip install PyNLPIR

2 初始化NLPIR

1
2
3
import pynlpir
# 默认情况下,输入假定为unicode或UTF-8编码。如果您想使用不同的编码(例如GBK或BIG5)
pynlpir.open(encoding='gbk')

3 切分文本

1
2
3
4
# 词性标注 pos_tagging=True;词性标注显示英文/中文 pos_english=True; 词性标记的显示方式 pos_names='parent/child/all'
# 返回的是tuple(token, pos)组成的列表,其中token就是切出来的词,pos就是语言属性
# 调用segment方法指定的pos_names参数可以是'all', 'child', 'parent',默认是parent, 表示获取该词性的最顶级词性,child表示获取该词性的最具体的信息,all表示获取该词性相关的所有词性信息,相当于从其顶级词性到该词性的一条路径
pynlpir.segment(s, pos_tagging=True, pos_names='parent', pos_english=True)
1
2
3
4
s = 'NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统,从2009年开始,为了和以前工作进行大的区隔,并推广NLPIR自然语言处理与信息检索共享平台,调整命名为NLPIR分词系统。'
pynlpir.segment(s)

# Sample output: [('NLPIR', 'noun'), ('分词', 'verb'), ('系统', 'noun'), ('前身', 'noun'), ('为', 'preposition'), ('2000年', 'time word'), ('发布', 'verb'), . . . ]

如果不想词性标注,设置post_tagging为false:

1
2
3
pynlpir.segment(s, pos_tagging=False)

# Sample output: ['NLPIR', '分词', '系统', '前身', '为', '2000年', '发布', . . . ]

4 关键字

1
2
3
4
# 获得多少个词:max_words=50; 显示关键字权重:weighted=True
pynlpir.get_key_words(s, max_words=5, weighted=True)
# 关闭API
pynlpir.close()