摘要：pynlpir的安装及简单使用

1 安装

1	pip install PyNLPIR

2 初始化NLPIR

1
2
3

import pynlpir
# 默认情况下，输入假定为unicode或UTF-8编码。如果您想使用不同的编码（例如GBK或BIG5）
pynlpir.open(encoding='gbk')

3 切分文本

# 词性标注 pos_tagging=True；词性标注显示英文/中文 pos_english=True； 词性标记的显示方式 pos_names='parent/child/all'
# 返回的是tuple(token, pos)组成的列表，其中token就是切出来的词，pos就是语言属性
# 调用segment方法指定的pos_names参数可以是'all', 'child', 'parent'，默认是parent， 表示获取该词性的最顶级词性，child表示获取该词性的最具体的信息，all表示获取该词性相关的所有词性信息，相当于从其顶级词性到该词性的一条路径
pynlpir.segment(s, pos_tagging=True, pos_names='parent', pos_english=True)

s = 'NLPIR分词系统前身为2000年发布的ICTCLAS词法分析系统，从2009年开始，为了和以前工作进行大的区隔，并推广NLPIR自然语言处理与信息检索共享平台，调整命名为NLPIR分词系统。'
pynlpir.segment(s)

# Sample output: [('NLPIR', 'noun'), ('分词', 'verb'), ('系统', 'noun'), ('前身', 'noun'), ('为', 'preposition'), ('2000年', 'time word'), ('发布', 'verb'), . . . ]

如果不想词性标注，设置post_tagging为false：

1
2
3

pynlpir.segment(s, pos_tagging=False)

# Sample output: ['NLPIR', '分词', '系统', '前身', '为', '2000年', '发布', . . . ]

4 关键字

# 获得多少个词：max_words=50； 显示关键字权重：weighted=True
pynlpir.get_key_words(s, max_words=5, weighted=True)
# 关闭API
pynlpir.close()