机制和架构

简介

实时的分布式搜索分析引擎
内部使用 Lucene 做索引与搜索

索引结构和分片

一个文档由 _index 、 _type 和 _id 唯一标识一个文档。
_index
指向一个或者多个物理分片的逻辑命名空间
_type
类型用于区分同一个集合中的不同细分，不同的细分中数据的整体模式是相同或相似的，不适合完全不同类型的数据，多个类型可以在相同的索引中存在，只要它们的字段不冲突（对于整个索引，映射在本质上被扁平化成一个单一的、全局的模式）。

分片

分片是一个底层的工作单元，一个分片是一个 Lucene 的实例，它本身就是一个完整的搜索引擎,文档不会跨分片存储。
索引与分片的关系图：

ELASTICSEARCH 机制和架构

存储目录截图：

ELASTICSEARCH 机制和架构

一个分片可以是主分片或者副本分片，索引建立的时候就已经确定了主分片数，副本分片数可以随时修改。

初始化时确定主分片数：
依据硬件情况等定好单个分片容量，依据业务场景预估数据量和增长量，除以单个分片容量。
分片数不够时，可以考虑重建索引，或者使用一个新的索引名称。搜索 1 个有着 50 个分片的索引与搜索 50 个每个都有 1 个分片的索引完全等价。

索引别名

索引别名就像一个快捷方式或软连接，可以指向一个或多个索引。可以用于实现索引分组，或者索引间的无缝切换

动态更新索引

倒排索引(Lucene中的段)被写入磁盘后是不可改变的:它永远不会修改
es增加新的补充索引来反映新近的修改，而不是直接重写整个倒排索引。每一个倒排索引都会被轮流查询到—从最早的开始–查询完后再对结果进行合并

近实时搜索

按段（per-segment）搜索的发展
新段会被先写入到文件系统缓存，稍后再被刷新到磁盘，只要文件已经在缓存中，就可以像其它文件一样被打开和读取了。

持久化变更

每一次对 Elasticsearch 进行操作时均记录事务日志，当 Elasticsearch 启动的时候，并且会重放 translog 中所有在最后一次提交后发生的变更操作。

段合并

为节省资源，提高检索效率，Elasticsearch通过在后台进行段合并，小的段被合并到大的段，然后这些大的段再被合并到更大的段。
通过optimize API可以将一个分片强制合并到指定的段数目。（通常减少到一个）。例如在日志这种用例下，每天、每周、每月的日志被存储在一个索引中。老的索引实质上是只读的；它们也并不太可能会发生变化