网站seo关键字,白云建设网站,安丘市住房和城乡建设局网站,长沙网站seo按天计费点击下载《19道ElasticSearch面试题#xff08;很全#xff09;》
1. elasticsearch的一些调优手段
1、设计阶段调优
#xff08;1#xff09;根据业务增量需求#xff0c;采取基于日期模板创建索引#xff0c;通过 roll over API 滚动索引#xff1b;
#xff08;…点击下载《19道ElasticSearch面试题很全》
1. elasticsearch的一些调优手段
1、设计阶段调优
1根据业务增量需求采取基于日期模板创建索引通过 roll over API 滚动索引
2使用别名进行索引管理
3每天凌晨定时对索引做 force_merge 操作以释放空间
4采取冷热分离机制热数据存储到 SSD提高检索效率冷数据定期进行 shrink操作以缩减存储
5采取 curator 进行索引的生命周期管理
6仅针对需要分词的字段合理的设置分词器
7Mapping 阶段充分结合各个字段的属性是否需要检索、是否需要存储等。………
2、写入调优
1写入前副本数设置为 0
2写入前关闭 refresh_interval 设置为-1禁用刷新机制
3写入过程中采取 bulk 批量写入
4写入后恢复副本数和刷新间隔
5尽量使用自动生成的 id。
3、查询调优
1禁用 wildcard
2禁用批量 terms成百上千的场景
3充分利用倒排索引机制能 keyword 类型尽量 keyword
4数据量大时候可以先基于时间敲定索引再检索
5设置合理的路由机制。
4、其他调优
部署调优业务调优等。
2. elasticsearch 的倒排索引是什么
传统的我们的检索是通过文章逐个遍历找到对应关键词的位置。而倒排索引是通过分词策略形成了词和文章的映射关系表这种词典映射表即为倒排索引。有了倒排索引就能实现 O1时间复杂度的效率检索文章了极大的提高了检索效率。
倒排索引相反于一篇文章包含了哪些词它从词出发记载了这个词在哪些文档中出现过由两部分组成——词典和倒排表。倒排索引的底层实现是基于FSTFinite State Transducer数据结构。
lucene 从 4版本后开始大量使用的数据结构是 FST。
FST 有两个优点
1空间占用小。通过对词典中单词前缀和后缀的重复利用压缩了存储空间
2查询速度快。O(len(str))的查询时间复杂度。
3. elasticsearch 是如何实现 master 选举的
前置前提
1只有候选主节点mastertrue的节点才能成为主节点。
2最小主节点数min_master_nodes的目的是防止脑裂。
核对了一下代码核心入口为 findMaster选择主节点成功返回对应 Master否则返回 null。选举流程大致描述如下
第一步确认候选主节点数达标elasticsearch.yml 设置的值discovery.zen.minimum_master_nodes
第二步比较先判定是否具备 master 资格具备候选主节点资格的优先返回若两节点都为候选主节点则 id 小的值会主节点。注意这里的 id 为 string 类型。
4. 详细描述一下 Elasticsearch 索引文档的过程
这里的索引文档应该理解为文档写入 ES创建索引的过程。文档写入包含单文档写入和批量 bulk 写入这里只解释一下单文档写入流程。
记住官方文档中的这个图。 第一步客户写集群某节点写入数据发送请求。如果没有指定路由/协调节点请求的节点扮演路由节点的角色。
第二步节点 1 接受到请求后使用文档_id 来确定文档属于分片 0。请求会被转到另外的节点假定节点 3。因此分片 0 的主分片分配到节点 3 上。
第三步节点 3 在主分片上执行写操作如果成功则将请求并行转发到节点 1和节点 2 的副本分片上等待结果返回。所有的副本分片都报告成功节点 3 将向协调节点节点 1报告成功节点 1 向请求客户端报告写入成功。
5. 详细描述一下 Elasticsearch 搜索的过程
1搜索被执行成一个两阶段过程我们称之为 Query Then Fetch
2在初始查询阶段时查询会广播到索引中每一个分片拷贝主分片或者副本分片。 每个分片在本地执行搜索并构建一个匹配文档的大小为 from size 的优先队列。
PS在搜索的时候是会查询 Filesystem Cache 的但是有部分数据还在 MemoryBuffer所以搜索是近实时的。
3每个分片返回各自优先队列中 所有文档的 ID 和排序值 给协调节点它合并这些值到自己的优先队列中来产生一个全局排序后的结果列表。
4接下来就是 取回阶段协调节点辨别出哪些文档需要被取回并向相关的分片提交多个 GET 请求。每个分片加载并 丰 富 文档如果有需要的话接着返回文档给协调节点。一旦所有的文档都被取回了协调节点返回结果给客户端。
5补充Query Then Fetch 的搜索类型在文档相关性打分的时候参考的是本分片的数据这样在文档数量较少的时候可能不够准确DFS Query Then Fetch 增加了一个预查询的处理询问 Term 和Document frequency这个评分更准确但是性能会变差。
6. Elasticsearch 在部署时对 Linux 的设置有哪些优化方法
1关闭缓存 swap;
2堆内存设置为Min节点内存/2, 32GB;
3设置最大文件句柄数
4线程池队列大小根据业务需要做调整
5磁盘存储 raid 方式——存储有条件使用 RAID10增加单节点性能以及避免单节点存储故障。
7. lucence 内部结构是什么
Lucene 是有索引和搜索的两个过程包含索引创建索引搜索三个要点。可以基于这个脉络展开一些。
8. Elasticsearch 是如何实现 Master 选举的
1Elasticsearch 的选主是 ZenDiscovery 模块负责的主要包含 Ping节点之间通过这个 RPC 来发现彼此和 Unicast单播模块包含一个主机列表以控制哪些节点需要 ping 通这两部分
2对所有可以成为 master 的节点node.master: true根据 nodeId 字典排序每次选举每个节点都把自己所知道节点排一次序然后选出第一个第 0 位节点暂且认为它是 master 节点。
3如果对某个节点的投票数达到一定的值可以成为 master 节点数 n/21并且该节点自己也选举自己那这个节点就是 master。否则重新选举一直到满足上述条件。
4补充master 节点的职责主要包括集群、节点和索引的管理不负责文档级别的管理data 节点可以关闭 http 功能。
9. Elasticsearch 中的节点比如共 20 个其中的10 个选了一个 master另外 10 个选了另一个 master怎么办
1当集群 master 候选数量不小于 3 个时可以通过设置最少投票通过数量discovery.zen.minimum_master_nodes超过所有候选节点一半以上来解决脑裂问题
2当候选数量为两个时只能修改为唯一的一个 master 候选其他作为 data节点避免脑裂问题。
10. 客户端在和集群连接时如何选择特定的节点执行请求的
TransportClient 利用 transport 模块远程连接一个 elasticsearch 集群。它并不加入到集群中只是简单的获得一个或者多个初始化的 transport 地址并以 轮询 的方式与这些地址进行通信。
11. 详细描述一下 Elasticsearch 索引文档的过程
协调节点默认使用文档 ID 参与计算也支持通过 routing以便为路由提供合适的分片。
1当分片所在的节点接收到来自协调节点的请求后会将请求写入到 MemoryBuffer然后定时默认是每隔 1 秒写入到 Filesystem Cache这个从 MomeryBuffer 到 Filesystem Cache 的过程就叫做 refresh
2当然在某些情况下存在 Momery Buffer 和 Filesystem Cache 的数据可能会丢失ES 是通过translog 的机制来保证数据的可靠性的。其实现机制是接收到请求后同时也会写入到 translog 中 当 Filesystem cache 中的数据写入到磁盘中时才会清除掉这个过程叫做 flush
3在 flush 过程中内存中的缓冲将被清除内容被写入一个新段段的 fsync将创建一个新的提交点并将内容刷新到磁盘旧的 translog 将被删除并开始一个新的 translog。
4flush 触发的时机是定时触发默认 30 分钟或者 translog 变得太大默认为 512M时
补充关于 Lucene 的 Segement
1Lucene 索引是由多个段组成段本身是一个功能齐全的倒排索引。
2段是不可变的允许 Lucene 将新的文档增量地添加到索引中而不用从头重建索引。
3对于每一个搜索请求而言索引中的所有段都会被搜索并且每个段会消耗CPU 的时钟周、文件句柄和内存。这意味着段的数量越多搜索性能会越低。
4为了解决这个问题Elasticsearch 会合并小段到一个较大的段提交新的合并段到磁盘并删除那些旧的小段。
12. Elasticsearch 是一个分布式的 RESTful 风格的搜索和数据分析引擎它的特点如下
1查询 Elasticsearch 允许执行和合并多种类型的搜索 — 结构化、非结构化、地理位置、度量指标 — 搜索方式随心而变。
2分析 找到与查询最匹配的十个文档是一回事。但是如果面对的是十亿行日志又该如何解读呢Elasticsearch 聚合让您能够从大处着眼探索数据的趋势和模式。
3速度 Elasticsearch 很快。真的真的很快。
4可扩展性 可以在笔记本电脑上运行。 也可以在承载了 PB 级数据的成百上千台服务器上运行。
5弹性 Elasticsearch 运行在一个分布式的环境中从设计之初就考虑到了这一点。
6灵活性 具备多个案例场景。数字、文本、地理位置、结构化、非结构化。所有的数据类型都欢迎。
7HADOOP SPARK Elasticsearch Hadoop
13. 详细描述一下 Elasticsearch 更新和删除文档的过程。
1删除和更新也都是写操作但是 Elasticsearch 中的文档是不可变的因此不能被删除或者改动以展示其变更
2磁盘上的每个段都有一个相应的.del 文件。当删除请求发送后文档并没有真的被删除而是在.del 文件中被标记为删除。该文档依然能匹配查询但是会在结果中被过滤掉。当段合并时在.del文件中被标记为删除的文档将不会被写入新段。
3在新的文档被创建时Elasticsearch 会为该文档指定一个版本号当执行更新时旧版本的文档在.del 文件中被标记为删除新版本的文档被索引到一个新段。旧版本的文档依然能匹配查询但是会在结果中被过滤掉。
14. 在 Elasticsearch 中是怎么根据一个词找到对应的倒排索引的
1Lucene的索引过程就是按照全文检索的基本过程将倒排表写成此文件格式的过程。
2Lucene的搜索过程就是按照此文件格式将索引进去的信息读出来然后计算每篇文档打分(score)的过程。
15. 对于 GC 方面在使用 Elasticsearch 时要注意什么
1倒排词典的索引需要常驻内存无法 GC需要监控 data node 上 segmentmemory 增长趋势。
2各类缓存field cache, filter cache, indexing cache, bulk queue 等等要设置合理的大小并且要应该根据最坏的情况来看 heap 是否够用也就是各类缓存全部占满的时候还有 heap 空间可以分配给其他任务吗避免采用 clear cache等“自欺欺人”的方式来释放内存。
3避免返回大量结果集的搜索与聚合。确实需要大量拉取数据的场景可以采用scan scroll api来实现。
4cluster stats 驻留内存并无法水平扩展超大规模集群可以考虑分拆成多个集群通过 tribe node连接。
5想知道 heap 够不够必须结合实际应用场景并对集群的 heap 使用情况做持续的监控。
6根据监控数据理解内存需求合理配置各类circuit breaker将内存溢出风险降低到最低。
16. Elasticsearch 对于大数据量上亿量级的聚合如何实现
Elasticsearch 提供的首个近似聚合是 cardinality 度量。它提供一个字段的基数即该字段的 distinct或者 unique 值的数目。它是基于 HLL 算法的。HLL 会先对我们的输入作哈希运算然后根据哈希运算的结果中的 bits 做概率估算从而得到基数。其特点是可配置的精度用来控制内存的使用更精确 更多内存小的数据集精度是非常高的我们可以通过配置参数来设置去重需要的固定内存使用量。无论数千还是数十亿的唯一值内存使用量只与你配置的精确度相关。
17. 在并发情况下Elasticsearch 如果保证读写一致
1可以通过版本号使用乐观并发控制以确保新版本不会被旧版本覆盖由应用层来处理具体的冲突
2另外对于写操作一致性级别支持 quorum/one/all默认为 quorum即只有当大多数分片可用时才允许写操作。但即使大多数可用也可能存在因为网络等原因导致写入副本失败这样该副本被认为故障分片将会在一个不同的节点上重建。
3对于读操作可以设置 replication 为 sync(默认)这使得操作在主分片和副本分片都完成后才会返回如果设置 replication 为 async 时也可以通过设置搜索请求参数_preference 为 primary 来查询主分片确保文档是最新版本。
18. 如何监控 Elasticsearch 集群状态
Marvel 让你可以很简单的通过 Kibana 监控 Elasticsearch。你可以实时查看你的集群健康状态和性能也可以分析过去的集群、索引和节点指标。
19. 拼写纠错是如何实现的
1拼写纠错是基于编辑距离来实现编辑距离是一种标准的方法它用来表示经过插入、删除和替换操作从一个字符串转换到另外一个字符串的最小操作步数
2编辑距离的计算过程比如要计算 batyu 和 beauty 的编辑距离先创建一个7×8 的表batyu长度为 5coffee 长度为 6各加 2接着在如下位置填入黑色数字。其他格的计算过程是取以下三个值的最小值如果最上方的字符等于最左方的字符则为左上方的数字。否则为左上方的数字1。对于 3,3 来说为0
左方数字1对于 3,3 格来说为 2
上方数字1对于 3,3 格来说为 2
最终取右下角的值即为编辑距离的值 3。 对于拼写纠错我们考虑构造一个度量空间Metric Space该空间内任何关系满足以下三条基本条件
d(x,y) 0 – 假如 x 与 y 的距离为 0则 xy
d(x,y) d(y,x) – x 到 y 的距离等同于 y 到 x 的距离
d(x,y) d(y,z) d(x,z) --三角不等式
1根据三角不等式则满足与 query 距离在 n 范围内的另一个字符转 B其与 A的距离最大为dn最小为 d-n。
2BK 树的构造就过程如下每个节点有任意个子节点每条边有个值表示编辑距离。所有子节点到父节点的边上标注 n 表示编辑距离恰好为 n。比如我们有棵树父节点是”book”和两个子节点”cake”和”books””book”到”books”的边标号 1”book”到”cake”的边上标号 4。从字典里构造好树后无论何时你想插入新单词时计算该单词与根节点的编辑距离并且查找数值为d(neweord, root)的边。递归得与各子节点进行比较直到没有子节点你就可以创建新的子节点并将新单词保存在那。比如插入”boo”到刚才上述例子的树中我们先检查根节点查找 d(“book”, “boo”) 1 的边然后检查标号为1的边的子节点得到单词”books”。我们再计算距离 d(“books”, “boo”)2则将新单词插在”books”之后边标号为 2。
3查询相似词如下计算单词与根节点的编辑距离 d然后递归查找每个子节点标号为 d-n 到dn包含的边。假如被检查的节点与搜索单词的距离 d 小于 n则返回该节点并继续查询。比如输入 cape 且最大容忍距离为 1则先计算和根的编辑距离 d(“book”, “cape”)4然后接着找和根节点之间编辑距离为 3 到5 的这个就找到了 cake 这个节点计算 d(“cake”, “cape”)1满足条件所以返回cake然后再找和 cake 节点编辑距离是 0 到 2的分别找到 cape 和cart 节点这样就得到 cape 这个满足条件的结果。 点击下载《19道ElasticSearch面试题很全》