厦门建设网站制作,南昌专业网站排名推广,软文标题,老客网免费发布信息链接:http://t.cn/AidABz08从一个问题说起五年前在腾讯的时候#xff0c;发现分页场景下#xff0c;mysql请求速度非常慢。数据量只有10w的情况下#xff0c;select xx from 单机大概2#xff0c;3秒。我就问我师父为什么#xff0c;他反问“索引场景#xff0c;mysql中获… 链接:http://t.cn/AidABz08从一个问题说起五年前在腾讯的时候发现分页场景下mysql请求速度非常慢。数据量只有10w的情况下select xx from 单机大概23秒。我就问我师父为什么他反问“索引场景mysql中获得第n大的数时间复杂度是多少”答案的追寻确认场景假设status上面有索引。select * from table where status xx limit 10 offset 10000。会非常慢。数据量不大的情况就有几秒延迟。小白作答那时候非常有安全感有啥事都有师父兜着反正技术都是组里最差的就瞎猜了个log(N)心想找一个节点不就是log(N)。自然而然师父让我自己去研究。这一阶段用了10分钟。继续解答仔细分析一下会发现通过索引去找很别扭。因为你不知道前100个数在左子树和右子数的分布情况所以其是无法利用二叉树的查找特性。通过学习了解到mysql的索引是b树。看了这个图就豁然开朗了。可以直接通过叶子节点组成的链表以o(n)的复杂度找到第100大的树。但是即使是o(n)也不至于慢得令人发指是否还有原因。这一阶段主要是通过网上查资料断断续续用了10天。系统学习这里推荐两本书一本《MySQL技术内幕 InnoDB存储引擎》通过他可以对InnoDB的实现机制如mvcc索引实现文件存储会有更深理解。第二本是《高性能MySQL》这本书从着手使用层面但讲得比较深入而且提到了很多设计的思路。两本书相结合反复领会mysql就勉强能登堂入室了。这里有两个关键概念聚簇索引包含主键索引和对应的实际数据索引的叶子节点就是数据节点辅助索引可以理解为二级节点其叶子节点还是索引节点包含了主键id。即使前10000个会扔掉mysql也会通过二级索引上的主键id,去聚簇索引上查一遍数据这可是10000次随机io自然慢成哈士奇。这里可能会提出疑问为什么会有这种行为这是和mysql的分层有关系limit offset 只能作用于引擎层返回的结果集。换句话说引擎层也很无辜他并不知道这10000个是要扔掉的。以下是mysql分层示意图可以看到引擎层和server层实际是分开的。直到此时大概明白了慢的原因。这一阶段用了一年。触类旁通此时工作已经3年了也开始看一些源码。在看完etcd之后看了些tidb的源码。无论哪种数据库其实一条语句的查询是由逻辑算子组成。逻辑算子介绍 在写具体的优化规则之前先简单介绍查询计划里面的一些逻辑算子。DataSource 这个就是数据源也就是表select * from t 里面的 t。Selection 选择例如 select xxx from t where xx 5 里面的 where 过滤条件。Projection 投影 select c from t 里面的取 c 列是投影操作。Join 连接 select xx from t1, t2 where t1.c t2.c 就是把 t1 t2 两个表做 Join。选择投影连接(简称 SPJ) 是最基本的算子。其中 Join 有内连接左外右外连接等多种连接方式。select b from t1, t2 where t1.c t2.c and t1.a 5 变成逻辑查询计划之后t1 t2 对应的 DataSource负责将数据捞上来。上面接个 Join 算子将两个表的结果按 t1.c t2.c连接再按 t1.a 5 做一个 Selection 过滤最后将 b 列投影。下图是未经优化的表示所以说不是mysql不想把limit, offset传递给引擎层而是因为划分了逻辑算子所以导致无法直到具体算子包含了多少符合条件的数据。怎么解决《高性能MySQL》提到了两种方案方案一根据业务实际需求看能否替换为下一页上一页的功能特别在ios, android端以前那种完全的分页是不常见的。这里是说把limit, offset替换为辅助索引(即搜索条件)id的方式。该id再调用时需要返回给前端。方案二正面刚。这里介绍一个概念索引覆盖当辅助索引查询的数据只有id和辅助索引本身那么就不必再去查聚簇索引。思路如下select xxx,xxx from in (select id from table where second_index xxx limit 10 offset 10000) 这句话是说先从条件查询中查找数据对应的数据库唯一id值因为主键在辅助索引上就有所以不用回归到聚簇索引的磁盘去拉取。再通过这些已经被limit出来的10个主键id去查询聚簇索引。这样只会十次随机io。在业务确实需要用分页的情况下使用该方案可以大幅度提高性能。通常能满足性能要求。写在最后非常感谢我师父在我毕业前三年的指导给了我很多耐心。在节假日给我布置看书任务在午休时候考察我学习的进展通过提问的方式引导我去探索问题在我从腾讯毕业后每次见面也给我出了很多主意传授授业解惑无一没有做到极致。另外腾讯的人才培养是我所见闻到最亲切最用心。最后希望大家在人生道路上都能遇到自己的领路人祝大家每天都快乐更多精彩关注我吧本周推荐漫画:星球入侵之策略模式文章好看点这里