`
laotu5i0
  • 浏览: 141007 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

paoding庖丁解牛中文分词介绍

    博客分类:
  • java
阅读更多

paoding庖丁解牛中文分词介绍

北京一个同事写的东东,最近要做搜索,所以拿来用用。先学会如何使用。有空再分析分析代码,多向高手学习学习。

下载地址:http://code.google.com/p/paoding/downloads/list
SVN地址:http://paoding.googlecode.com/svn/trunk/paoding-analysis/


1、安装导入
将二进制包paoding-analysis-2.0.4.jar放到自己的classpath下
我是使用maven2来管理jar包的,所以上传然后修改pom.xml如下
<dependency>
<groupId>paoding</groupId>
<artifactId>paoding-analysis</artifactId>
<version>2.0.4</version>
</dependency>

2、配置字典路径
将字典文件安装(也就是拷贝)到某个目录下,比如/data/paoding/dic下

把配置文件paoding-analysis.properties放到自己的classpath下
打开paoding-analysis.properties,把paoding.dic.home属性设置为字
典的安装目录,比如paoding.dic.home=/data/paoding/dic,特别的,如
果字典是安装在classpath下的dic目录下,则可以简单这样配置该属性:
paoding.dic.home=classpath:dic

另外配置上这几个
paoding.knife.class.letterKnife=net.paoding.analysis.knife.LetterKnife
paoding.knife.class.numberKnife=net.paoding.analysis.knife.NumberKnife
paoding.knife.class.cjkKnife=net.paoding.analysis.knife.CJKKnife

 

分享到:
评论

相关推荐

    paoding analysis 3.0.1 jar (庖丁解牛分词器)

    由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...

    庖丁解牛 中文分词工具

    Version 2.0.4–alpha2 通过 analyzer.bat 程序,可以输入中文文本,即时地查看分词效果。 Jar包在lib 文件夹中。 本人倡导零分资源共享,欢迎大家下载和评论。

    paoding(庖丁解牛)

    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,本书介绍了在nutch上配置paoding

    庖丁解牛分词器jar包

    Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章...

    Paoding中文分词

    庖丁解牛中文分词,速度不错,词库也很全面,非常不错!

    适用于lucene..5的庖丁解牛分词器

    可以适用于lucene3.5的庖丁解牛分词器jar包

    庖丁解牛分词时需要的高亮显示jar包

    庖丁解牛分词时需要的高亮显示jar包,高亮显示需要的jar包

    庖丁解牛3.0搜索引擎技术

    庖丁解牛,搜索引擎分词技术,用于开发网站站内搜索所需分词技术工具包。

    11款开放中文分词引擎测试数据

    benchmark 人工标注“标准答案” origin 标注原始数据 news 新闻数据 weibo 微博数据 auto_comments 汽车论坛数据 food_comments 餐饮点评数据 ...paoding 庖丁解牛分词器 qcloud 腾讯文智 sina 新浪云 sogou 搜狗分词

    paoding-analysis3.0

    庖丁解牛中文分词器,只要配置好字典的路径,就可以使用庖丁解牛,可以有效针对中文进行分词,而且可以自定义词典。适用于lucene-core-3.3.0.jar,包内已经包含lucene-core-3.3.0.jar,已测试,包好用!

    paoding-analysis.jar

    庖丁解牛分词器,支持中文和空格路径

Global site tag (gtag.js) - Google Analytics