`
m635674608
  • 浏览: 4905167 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

Elasticsearch的路由(Routing)特性

 
阅读更多

 

因为默认情况下,Elasticsearch使用文档的ID(类似于关系数据库中的自增ID,当然,如果不指定ID的 话,Elasticsearch使用的是随机值)将文档平均的分布于所有的分片上,这导致了Elasticsearch不能确定文档的位置,所以它必须将 这个请求广播到所有的100个分片上去执行。这同时也解释了为什么主分片的数量在索引创建的时候是固定下来的,并且永远不能改变。因为如果分片的数量改变 了,所有先前的路由值就会变成非法了,文档相当于丢失了。

 

而自定义的Routing模式,可以使我们的查询更具目的性。我们不必盲目地去广播查询请求,取而代之的是:我们要告诉Elasticsearch我们的数据在哪个分片上。

 

原来的查询语句:“请告诉我,USER1的文档数量一共有多少”

使用自定义Routing(在USESR ID上)后的查询语句:“请告诉我,USER1的文档数量一共有多少,它就在第三个分片上,其它的分片就不要去扫描了”

 

指定个性化路由

所有的文档API(get,index,delete,update和mget)都能接收一个routing参数,可以用来形成个性化文档分片映射。一个个性化的routing值可以确保相关的文档存储到同样的分片上——比如,所有属于同一个用户的文档。

 

第一种方法,也是比较直观的方法就是直接在请求的URL中指定routing参数:

[plain] view plaincopy
  1. curl -XPOST 'http://localhost:9200/store/order?routing=user123' -d '  
  2. {  
  3.     "productName": "sample",  
  4.     "customerID": "user123"  
  5. }'  


这样我们就按照用户的customerID的值将具有相同customerID的文档置于同一分片上了。

 

第二种方法就是直接从文档中提取到对应的路由值:

[plain] view plaincopy
  1. curl -XPUT 'http://localhost:9200/store/order/_mapping' -d '  
  2. {  
  3.     "order": {  
  4.         "_routing": {  
  5.             "required": true,  
  6.             "path": "customerID"  
  7.         }  
  8.     }  
  9. }'  


这样的方法和第一种方法在效果上一样的,但是有一点需要注意,相比于第一种方法这种方法的效率稍低,因为第一种方法直接就在请求的参数中确定了路由的值,而第二种方法中,首先需要将文档读入之后,再从中提取到对应的路由值。

 

利用路由机制的查询

利用路由机制的查询也是非常简单明了的,只需要在查询中指定对应的路由值即可:

[plain] view plaincopy
  1. curl -XGET 'http://localhost:9200/store/order/_search?routing=user123' -d '  
  2. {  
  3.     "query": {  
  4.         "filtered": {  
  5.             "query": {  
  6.                 "match_all": {}  
  7.             },  
  8.             "filter": {  
  9.                 "term": {  
  10.                     "userID": "user123"  
  11.                 }  
  12.             }  
  13.         }  
  14.     }  
  15. }'  


通过指定的路由值,我们就可以直接定位到user123的文档所在的分片,而不用一股脑的向索引的所有节点都发送请求。这样的话,会大大减少系统资源的浪费。

 

当然,也可以同时指定多个路由值,方法也是显而易见的,只需要在查询参数中指定多个路由值即可:

[plain] view plaincopy
  1. curl -XGET 'http://localhost:9200/forum/posts/?routing=Admin,Moderator' -d '{}'  


路由机制的总结

实际上,如果不明确指明使用路由机制,实际上路由机制也是在发挥作用的,只是默认的路由值是文档的id而已。而个性化路由的需求主要是和业务相关 的。默认的路由(如果是自动的生成的id)直观上会把所有的文档随机分配到一个分片上,而个性化的路由值就是和业务相关的了。这也会造成一些潜在的问题, 比如user123本身的文档就非常多,有数十万个,而其他大多数的用户只有几个文档,这样的话就会导致user123所在的分片较大,出现数据偏移的情 况,特别是多个这样的用户处于同一分片的时候,现象会更明显。具体的使用还是要结合实际的应用场景来选择的。

 

http://blog.csdn.net/cnweike/article/details/38531997

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics