停止词:lucene的停止词是无功能意义的词,比如is 、a 、are 、”的”,“得”,“我” 等,这些词会在句子中多次出现却无意义,所以在分词的时候需要把这些词过滤掉。
扩展词库:就是不想让哪些词被分开,让他们分成一个词。
同义词:假设有一个电子商务系统,销售书籍,提供了一个搜索引擎,一天,市场部的人要求客户在搜索书籍时,同义词就是比如输入“电子”,除了展示电子相关的书籍,还需要展现“机器”相关的书籍。
1. 常见的中文分词器有:极易分词的(MMAnalyzer) 、"庖丁分词"分词器(PaodingAnalzyer)、IKAnalyzer 等等。其中 MMAnalyzer 和 PaodingAnalzyer 不支持 lucene3.0及以后版本。
使用方式都类似,在构建分词器时
Analyzer analyzer = new [My]Analyzer();
2. 这里只示例 IKAnalyzer,目前只有它支持Lucene3.0 以后的版本。
首先需要导入 IKAnalyzer3.2.0Stable.jar 包
3. 示例代码
view plaincopy to clipboardprint?
public class AnalyzerTest {
@Test
public void test() throws Exception {
String text = "An IndexWriter creates and maintains an index.";
/* 标准分词器:单子分词 */
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2 = "测试中文环境下的信息检索";
testAnalyzer(new IKAnalyzer(), text2); // 使用IKAnalyzer,词库分词
}
/**
* 使用指定的分词器对指定的文本进行分词,并打印结果
*
* @param analyzer
* @param text
* @throws Exception
*/
private void testAnalyzer(Analyzer analyzer, String text) throws Exception {
System.out.println("当前使用的分词器:" + analyzer.getClass());
TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
tokenStream.addAttribute(TermAttribute.class);
while (tokenStream.incrementToken()) {
TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);
System.out.println(termAttribute.term());
}
}
}
public class AnalyzerTest {
@Test
public void test() throws Exception {
String text = "An IndexWriter creates and maintains an index.";
/* 标准分词器:单子分词 */
Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_30);
testAnalyzer(analyzer, text);
String text2 = "测试中文环境下的信息检索";
testAnalyzer(new IKAnalyzer(), text2); // 使用IKAnalyzer,词库分词
}
/**
* 使用指定的分词器对指定的文本进行分词,并打印结果
*
* @param analyzer
* @param text
* @throws Exception
*/
private void testAnalyzer(Analyzer analyzer, String text) throws Exception {
System.out.println("当前使用的分词器:" + analyzer.getClass());
TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
tokenStream.addAttribute(TermAttribute.class);
while (tokenStream.incrementToken()) {
TermAttribute termAttribute = tokenStream.getAttribute(TermAttribute.class);
System.out.println(termAttribute.term());
}
}
}
3. 如何扩展词库:很多情况下,我们可能需要定制自己的词库,例如 XXX 公司,我们希望这能被分词器识别,并拆分成一个词。
IKAnalyzer 可以很方便的实现我们的这种需求。
新建 IKAnalyzer.cfg.xml
view plaincopy to clipboardprint?
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<!-- 1,文件要是 UTF-8 编码。2,一行写一个词 -->
<!--用户可以在这里配置自己的扩展字典-->
<entry key="ext_dict">/mydict.dic</entry>
</properties>
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<!-- 1,文件要是 UTF-8 编码。2,一行写一个词 -->
<!--用户可以在这里配置自己的扩展字典-->
<entry key="ext_dict">/mydict.dic</entry>
</properties>
解析:
<entry key="ext_dict">/mydict.dic</entry> 扩展了一个自己的词典,名字叫 mydict.dic
因此我们要建一个文本文件,名为:mydict.dic (此处使用的 .dic 并非必须)
在这个文本文件里写入:
北京XXXX科技有限公司
这样就添加了一个词汇。
如果要添加多个,则新起一行:
词汇一
词汇二
词汇三
需要注意的是,这个文件一定要使用 UTF-8编码
4. 停用词:
有些词在文本中出现的频率非常高,但是对文本所携带的信息基本不产生影响,例如英文的"a、an、the、of",或中文的"的、了、着",以及各种标点符号等,这样的词称为停用词(stop word)。
文本经过分词之后,停用词通常被过滤掉,不会被进行索引。在检索的时候,用户的查询中如果含有停用词,检索系统也会将其过滤掉(因为用户输入的查询字符串也要进行分词处理)。
排除停用词可以加快建立索引的速度,减小索引库文件的大小。
IKAnalyzer 中自定义停用词也非常方便,和配置 "扩展词库" 操作类型,只需要在 IKAnalyzer.cfg.xml 加入如下配置:
<entry key="ext_stopwords">/ext_stopword.dic</entry>
同样这个配置也指向了一个文本文件 /ext_stopword.dic (后缀名任意),格式如下:
也
了
仍
从
相关推荐
自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer
用java实现的,利用了lucene里面的standardAnalyzer分析器实现的分词,可以去停用词,再利用波特算法实现 词干提取 最后排序 和词频统计输出
Lucene关于几种中文分词的总结
//删除词库中的全部词语(注意:非常危险的操作,在没有加载新的词库前所有的分词都将失效) MMAnalyzer.clear(); //词库中是否包含该词 MMAnalyzer.contains(String word); //从词库中移除该词 ...
基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能,新增中英文停用词库,直接导入即可使用。
基于ik动态词库分词实现--无需重启服务
中文分词器: 1. http://code.google.com/p/ik-analyzer/ (IK_Analyzer_2012FF_hf1.zip) 2. https://code.google.com/p/mmseg4j/ (mmseg4j-1.9.1.v20130120-SNAPSHOT.zip) 查看分词库: ...
基于词典的最大匹配的Lucene中文分词程序
采用反向机械分词算法。 对数字、英文进行特别的处理。 支持中英文数字混合词的处理。 分词速度快。
IK分词器在是一款基于词典和规则的中文分词器。这里的IK分词器是独立于Elasticsearch、Lucene、Solr,可以直接用在java代码中的部分。实际工作中IK分词器一般都是集成到Solr和Elasticsearch搜索引擎里面使用。 IK...
java单独整合ikanalyzer中文分词器提取关键字及动态拓展词库并兼容lucene高版本
近期整理的IKAnalyzer中文停用词列表,大约有2000多个词,希望可以帮到大家,下载希望给个好评,谢谢
专业提供中文分词PHP扩展和中文词库。使中文分词,全文搜索不再是难点,一个php函数即完成分词。然后即可把分词后的结果存储,再使用sphinx,Lucene等进行索引搜索了。安装说明1。 若服务器为Windows系统,复制PHP...
Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为...
word分词是一个Java实现的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义。 能准确识别英文、数字,以及日期、时间等数量词,能识别人名、地名、组织机构名等未登录词。 同时提供了Lucene...
分词(lucene.Net提供StandardAnalyzer一元分词,按照单个字进行分词,一个汉字一个词) 盘古分词 基于词库的分词,可以维护词库 首先我们新增的SearchHelper类需要将其做成一个单例,使用单例是因为:有许多地方需要...
此版本是基于IK-Analyzer-2012FF修改而来,专门适用于Lucene 5.2.1。 IK Analyzer 是一个开源的,基于java语言...在2012版本中,IK实现了简单的分词歧义排除算法,标志着IK分词器从单纯的词典分词向模拟语义分词衍化。
Lucene3.0.3+盘古分词的实现用到的dll文件,带词库文件。已证实可用,可指定使用自己维护后的词库文件。
通过对基于最大匹配算法的中文分词器的设计与改进,并引入文本解析器与构建同义词词库引擎,使得Lucene对中文的检索更加个性化。通过检索结果的对比表明,改进后的中文分词器对检索功能的扩展有了极大的提高。并最终...
本人从搜狗词库下载后转化为Lucene中文分词所需的词库,里面搜集的都是官方推荐的内容本人亲测可用。使用Solr5.2.1测试