了解分词器的概念
分词器(Analyzer)是将一段文本,按照一定逻辑,拆分成多个词语的一种工具,如下所示
ElasticSearch 内置分词器有以下几种
ES提供了一个接口给我们来验证分词效果,如下所示
# 分词效果验证 GET _analyze { "text": "我爱写代码", "analyzer": "standard" }
分词效果如下所示
Elasticsearch内置分词器对中文很不友好(偏好英文),处理方式为一个字一个词
学会如何集成ik分词器
ik_smart
:最小分词法
ik_max_word
:最细分词法
1)下载好ik分词器后,进入创建ES容器的时候挂载的plugins目录
2)将ik分词器添加到plugins里面即可
3)重启es容器
docker restart elasticsearch
4)验证ik分词器是否安装成功
GET _analyze { "text": "我是程序员", "analyzer": "ik_max_word" }
一般情况下,ik_smart
算法足够使用了,ik_max_word
以最细粒度分词,会分太多次,数据量过大
目前person索引库的name字段位text类型,我们使用term查询(不分词查询),发现并没有结果
GET person/_search { "query": { "term": { "name": { "value": "翠花" } } } }
因为默认情况下,text类型使用standard分词器进行分词
1)这时需要删除person索引库,然后重新设置name的类型为text,且analyzer为ik_max_word
# 删除person索引库 DELETE person PUT person { "mappings": { "properties": { "name":{ "type": "text", "analyzer": "ik_max_word" }, "age":{ "type": "integer" } } } }
2)插入数据
POST person/_doc/1 { "name": "翠花", "age": 20, "sex": "女" }
3)再次查询
GET person/_search { "query": { "term": { "name": { "value": "翠花" } } } }
这时候不分词查询就有结果了
docker cp elasticsearch:/usr/share/elasticsearch/plugins/analysis-ik/config/IKAnalyzer.cfg.xml /root
在IKAnalyzer.cfg.xml配置文件中添加如下内容
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!--用户可以在这里配置自己的扩展字典 *** 添加扩展词典--> <entry key="ext_dict">ext.dic</entry> </properties>
新建一个ext.dic文件,可以参考config目录下复制一个配置文件进行修改,添加如下内容
奥里给 啊噢额
docker restart elasticsearch(容器名称或id)
GET /_analyze { "analyzer": "ik_max_word", "text": "奥里给,啊噢额" }
PS:如果发现没能正常分词,可以使用cat ext.dic
查看输出在终端的文字是否乱码
PS:ik分词器不能使用中英文混合!
<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> <properties> <comment>IK Analyzer 扩展配置</comment> <!--用户可以在这里配置自己的扩展字典--> <entry key="ext_dict">ext.dic</entry> <!--用户可以在这里配置自己的扩展停止词字典 *** 添加停用词词典--> <entry key="ext_stopwords">stop.dic</entry> </properties>
结业
docker restart elasticsearch(容器名称或id)
docker logs -f elasticsearch(容器名称或id)
GET /_analyze { "analyzer": "ik_max_word", "text": "2018届计算机1班的结业率高达10%,奥里给!" }