干货|史上最全中文分词工具整理

作者 | fendouai

一.国文分词

爆发服务性的轻摇表

二。准确率评价:

THULAC:类型分词软件的机能比拟

敝选择 、ICTCLAS(2015版) 、jieba(C++版)等国际具典型性的分词软件与THULAC做机能比拟。敝选择Windows作为受考验典礼。,停飞另外的届国际华语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)放开的国际国文分词测评标准的,受考验了形形色色的软件的猛冲和精确的。。

在另外的届国际华语分词测评中,共同体第四单位陈设受考验本金(学院)。 Sinica、 City University 、Peking University 、MicrosoftResearch), 在评价陈设的资源icwb2-data中计入了是人这四家单位的锻炼集(training)、受考验套件(受考验), 于是停飞各自分词标准的而陈设的中肯的受考验集的标准的答案(icwb2-data/scripts/gold).在icwb2-data/scripts中学概况一览下容纳对分词停止自发的评分的perl本子score。

敝存在单独一致的受考验典礼中。,对上述的流传的散开软件和Tulac停止了受考验。,所应用的前任的是每个散开软件的前任的。。Tulac应用单独简略的前任的,它陈设了软件,前任的1。。评价典礼是 Intel Core i5 2.4 GHz 算是列举如下。:

评价算是1

此外从一边至另一边对标准的受考验集的评价除非,敝也对各自分词工具在大通知上的猛冲停止了评价,算是列举如下:

(51 MB)

评价算是2

用BoSONNLP完成或结束分词通知的预备和评价。:11 款吐艳国文分词引擎大比拼(2015年放开)

散开的定量结帐与印记通知是分不开的。,人工散开的标准的答案一词。。通知源头小平面,敝把试场陷入了数个教派。 1。逼迫通知:140篇,共30517字; 2。微博通知:200篇文章,共12962字; 三。讨论会通知(汽车回家)100:共27452字; 4。餐厅评论通知(大众评论):100条,共8295字。

精确的计算规定的:

剪下有点标点。,无比拟

受考验中触及的少量地体系是由本质分清的。,它可能性实现单词分清的不一致。。敝官吏工标注的算是代表中肯的的职位。,求精确的用计算机计算的最大值。

表示保留或保存时用上述的处置,用SIGHAN 分词评分本子区域了终极的准确率。,取消率与F1值。

从一边至另一边有通知采取北大现代华语根本费用标准的对有通知停止分词作为标准的。请参阅补遗中间的赠送的通知下载地址。。经过这四种通知,分词的准确率是划算的。。

形形色色的分词体系散开精确的的比拟

三。开支使丧失:

阿列伊云:

Ali云决定性的价钱

腾讯云:

腾讯云决定性的价钱

玻森国文

收费限量:

玻森国文收费限量

已付价钱:

玻森国文已付价钱

四。官方网站

开源工具

HanLP:

结巴分词:

盘古散开:

庖丁解牛:

https://code.google.com/p/paoding/

SCWS国文分词:

中学工具

FudanNLP:

https://github.com/FudanNLP/fnlp

LTP:

THULAC:

NLPIR:

业务服务性的

BosonNLP:

百度NLP:

搜狗爆发:

腾讯文志:

腾讯价钱表:

Ali云NLP:

Sina云:

受考验通知集

1、SIGHANBakeoff 2005 MSR, 560KB

2、SIGHANBakeoff 2005 PKU, 510KB

3、人民日报 2014,65MB

前两个通知集是SIGHAN于2005年安排的国文分词竞赛用过的的通知集,同样学院受考验分词工具的标准的通知集,本文用于受考验各大分词工具的真实,详尽地单独通知集更大。,用于受考验散开猛冲。

对吃水背诵感兴趣。,爱的小同伴,迎将来敝的网站。! 敝的公共地址:潘闯爱。

发表评论

电子邮件地址不会被公开。 必填项已用*标注