最近在折腾solr,现在需要让其支持中文分词,在网上看到了很多关于使用paoding中文分词的文章,但是测试很久都不行,而且paoding这个分词工具很久没更新了,最新版本是paoding-analysis-2.0.4-beta.zip,于是在想有没有其它的分词工具可以使用,后来找到了IKAnalyzer,仔细看了下,感觉很不错,关键是配置很容易,参照一篇文章中的例子http://blog.sina.com.cn/s/blog_722364920100v80u.html(在这里非常感谢这位楼主的文章),就跑起来了。在这里特意把其中关键的部分记载下来。
1、下载IKAnalyzer,并将其放置到solr/WEB-INF/lib目录下
IKAnalyzer 下载地址:http://code.google.com/p/ik-analyzer/downloads/detail?name=IKAnalyzer3.2.8%20bin.zip&can=2&q=
2、修改solr中conf目录中的schema.xml配置文件,添加如下内容:
<!-- IKAnalyzer3.2.8 中文分词-->
<fieldType name="text" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="false"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
<filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" enablePositionIncrements="true" />
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
如果采用上面的这种方式,那么相当于我们重新定义了一种fieldType,在后面的fields中需要把那些text_general修改为text,为了避免这种麻烦,我们可以修改原有的text_general类型:
找到fieldType name="text_general" ,修改其中的<tokenizer class="solr.StandardTokenizerFactory"/>为
<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory" isMaxWordLength="true"/>
这样就不需要修改后面的配置了。
3、测试
在浏览器中打开http://127.0.0.1:8080/solr/admin/analysis.jsp
在Field中选择type,在后面的输入框中输入text
在Field Value(Index)中输入:solr 中使用IKAnalyzer 中文分词
在Filed Value(Query)中输入:中文分词
最后点击Analyze,就会看到测试结果:
- 大小: 24.3 KB
分享到:
相关推荐
Solr是一个全文检索服务器,基于Lucene3.5开发的,我们可以在solr的基础上进行定制化的开发。新手学习记录了学习过程为后来者提供个参考吧。
solr 6.4.1配置中文分词IK所需资源,配置见博客:https://my.oschina.net/u/126875/blog/836858
solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0
适应solr5.x的中文分词IKAnalyzer
此为solr8的ikanalyzer中文分词包
solr分词 IKAnalyzer2012FF_hf1.rar,solr中文分词搜索
Solr安装与整合中文分词IKAnalyzer,作为初学者,跟随网络上前辈的脚步,一步步实现,谢谢前辈们
IKAnalyzer中文分词器本身已经不支持最新的solr 5,集成到solr中分词会报错,这里将解决了solr 5支持问题的最新IK包共享出来,希望能帮到各位! 附上IK在schema.xml中的配置: <fieldType name="text_ik" class=...
solr配置ikanalyzer分词文件以使用说明
亲测在solr6.6配置ik智能分词成功。具体步骤见压缩包里的readme.txt
IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。此包兼容solr7.x
solr6的中文分词器ik-analyzer-solr-6.0.jar,在solr上亲测可用
支持solr5.5 solr6.0中IK分词需要的资料
solr中文分词器 IKAnalyzer 支持solr版本5.x到7.x 亲测可用,我用的是7.2版本
solr4.7+中文分词器IK Analyzer 2012FF_hf1相匹配,本人测试可以使用
solr6对应的IKAnalyzer分词器jar包,使用方法: 1. 添加分词器的jar文件:在文件夹`contrib`下新建一个文件夹`rd-lib`,并将`IKAnalyzer2012_u6.jar`拷贝进来,这个文件夹用来存放第三方jar文件,后面做数据导入时候...
solr5.x(含5.4)可用的ikanalyzer中文分词 <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" /> ...
IK分词solr5.0.0
亲测可用的中文分词器,也可以到IK Analyzer官网下载,网址如下: https://code.google.com/archive/p/ik-analyzer/downloads 在solrcode的schema.xml文件中的配置如下: 配置中文分词器的fieldType: ...
Solr7.5.0配置中文分词器IKAnalyzer-附件资源