国家森林公园网站建设,网站开发准备工作,求几个微信推广平台,网站遭受攻击短连接风暴 是指数据库有很多链接之后只执行了几个语句就断开的客户端#xff0c;然后我们知道数据库客户端和数据库每次连接不仅需要tcp的三次握手#xff0c;而且还有mysql的鉴权操作都要占用很多服务器的资源。话虽如此但是如果连接的不多的话其实这点资源无所谓的。 但是…短连接风暴 是指数据库有很多链接之后只执行了几个语句就断开的客户端然后我们知道数据库客户端和数据库每次连接不仅需要tcp的三次握手而且还有mysql的鉴权操作都要占用很多服务器的资源。话虽如此但是如果连接的不多的话其实这点资源无所谓的。 但是如果遇到连接高峰期就会有问题max_connections参数用来控制一个MySQL实例同时存在的连接数的上限超过这个值系统就会拒绝接下来的连接请求并报错提示“Too many connections”。对于被拒绝连接的请求来说从业务角度看就是数据库不可用。 那么我们有没有啥可以解决的办法呢还是有的。
第一种方法先处理掉那些占着连接但是不工作的线程。 将现阶段没有工作的线程杀掉就可以释放一定的数据库资源这是一种我感觉非常有效的方法但是如果我们误杀了一个有用的线程呢 看下面这个例子。 我们通过show processlist 看到了这个表单然后我们发现session a 作为一个插入操作的事件但是此时却在睡觉我们如果只通过show processlist 就很可能将session a杀掉然后session a就会回滚这样的话对于业务端就会觉得数据没有更新成功这样会产生非常大的误会那我们该如何解决这个问题呢你可以查information_schema库的innodb_trx表 这个表就很清楚的显示trx_mysql_thread_id4 说明线程4还在工作那么我们只需要将使用命令kill connection id将线程5杀掉即可但是需要注意的是对于你处理业务的同事可能对于他们来说他们数据库的连接被断开他们是不知道的数据库主动断开连接是有问题的。
这个客户端并不会马上知道。直到客户端在发起下一个请求的时候才会收到这样的报错“ERROR 2013 (HY000): Lost connection to MySQL server during query”。
从数据库端主动断开连接可能是有损的尤其是有的应用端收到这个错误后不重新连接而是直接用这个已经不能用的句柄重试查询。这会导致从应用端看上去“MySQL一直没恢复”。
第二种方法减少连接过程的消耗。
慢查询性能问题
在MySQL中会引发性能问题的慢查询大体有以下三种可能 索引没有设计好 SQL语句没写好 MySQL选错了索引。
接下来我们就具体分析一下这三种可能以及对应的解决方案。
导致慢查询的第一种可能是索引没有设计好。
这种场景一般就是通过紧急创建索引来解决。MySQL 5.6版本以后创建索引都支持Online DDL了对于那种高峰期数据库已经被这个语句打挂了的情况最高效的做法就是直接执行alter table 语句。
比较理想的是能够在备库先执行。假设你现在的服务是一主一备主库A、备库B这个方案的大致流程是这样的 在备库B上执行 set sql_log_binoff也就是不写binlog然后执行alter table 语句加上索引 执行主备切换 这时候主库是B备库是A。在A上执行 set sql_log_binoff然后执行alter table 语句加上索引。
这是一个“古老”的DDL方案。平时在做变更的时候你应该考虑类似gh-ost这样的方案更加稳妥。但是在需要紧急处理时上面这个方案的效率是最高的。
导致慢查询的第二种可能是语句没写好。
比如我们犯了在第18篇文章《为什么这些SQL语句逻辑相同性能却差异巨大》中提到的那些错误导致语句没有使用上索引。
这时我们可以通过改写SQL语句来处理。MySQL 5.7提供了query_rewrite功能可以把输入的一种语句改写成另外一种模式。
比如语句被错误地写成了 select * from t where id 1 10000你可以通过下面的方式增加一个语句改写规则。
mysql insert into query_rewrite.rewrite_rules(pattern, replacement, pattern_database) values (select * from t where id 1 ?, select * from t where id ? - 1, db1);call query_rewrite.flush_rewrite_rules();这里call query_rewrite.flush_rewrite_rules()这个存储过程是让插入的新规则生效也就是我们说的“查询重写”。你可以用图4中的方法来确认改写规则是否生效。 图4 查询重写效果
导致慢查询的第三种可能就是碰上了我们在第10篇文章《MySQL为什么有时候会选错索引》中提到的情况MySQL选错了索引。
这时候应急方案就是给这个语句加上force index。
同样地使用查询重写功能给原来的语句加上force index也可以解决这个问题。
上面我和你讨论的由慢查询导致性能问题的三种可能情况实际上出现最多的是前两种即索引没设计好和语句没写好。而这两种情况恰恰是完全可以避免的。比如通过下面这个过程我们就可以预先发现问题。 上线前在测试环境把慢查询日志slow log打开并且把long_query_time设置成0确保每个语句都会被记录入慢查询日志 在测试表里插入模拟线上的数据做一遍回归测试 观察慢查询日志里每类语句的输出特别留意Rows_examined字段是否与预期一致。我们在前面文章中已经多次用到过Rows_examined方法了相信你已经动手尝试过了。如果还有不明白的欢迎给我留言我们一起讨论。
不要吝啬这段花在上线前的“额外”时间因为这会帮你省下很多故障复盘的时间。
如果新增的SQL语句不多手动跑一下就可以。而如果是新项目的话或者是修改了原有项目的 表结构设计全量回归测试都是必要的。这时候你需要工具帮你检查所有的SQL语句的返回结果。比如你可以使用开源工具pt-query-digest(pt-query-digest — Percona Toolkit Documentation)。
QPS突增问题
有时候由于业务突然出现高峰或者应用程序bug导致某个语句的QPS突然暴涨也可能导致MySQL压力过大影响服务。
我之前碰到过一类情况是由一个新功能的bug导致的。当然最理想的情况是让业务把这个功能下掉服务自然就会恢复。
而下掉一个功能如果从数据库端处理的话对应于不同的背景有不同的方法可用。我这里再和你展开说明一下。 一种是由全新业务的bug导致的。假设你的DB运维是比较规范的也就是说白名单是一个个加的。这种情况下如果你能够确定业务方会下掉这个功能只是时间上没那么快那么就可以从数据库端直接把白名单去掉。 如果这个新功能使用的是单独的数据库用户可以用管理员账号把这个用户删掉然后断开现有连接。这样这个新功能的连接不成功由它引发的QPS就会变成0。 如果这个新增的功能跟主体功能是部署在一起的那么我们只能通过处理语句来限制。这时我们可以使用上面提到的查询重写功能把压力最大的SQL语句直接重写成select 1返回。
当然这个操作的风险很高需要你特别细致。它可能存在两个副作用 如果别的功能里面也用到了这个SQL语句模板会有误伤 很多业务并不是靠这一个语句就能完成逻辑的所以如果单独把这一个语句以select 1的结果返回的话可能会导致后面的业务逻辑一起失败。
所以方案3是用于止血的跟前面提到的去掉权限验证一样应该是你所有选项里优先级最低的一个方案。
同时你会发现其实方案1和2都要依赖于规范的运维体系虚拟化、白名单机制、业务账号分离。由此可见更多的准备往往意味着更稳定的系统。