当前位置:首页 > AI技术 > 正文内容

mysql如何排查Out of memory错误 mysql内存分配调优最佳实践|Duuu笔记

admin6天前AI技术14

应先用 ps 或 pmap 查 mysqld 进程 RSS 内存,而非仅调大 innodb_buffer_pool_size;RSS 超物理内存 80% 或远超配置参数总和时,需排查连接泄漏、临时表滥用、performance_schema 开销等隐性内存消耗。

mysqld

进程实际内存占用,别只看

SHOW VARIABLES

MySQL 报

Out of memory

时,很多人第一反应是调大

innodb_buffer_pool_size

,结果反而更早崩。真实内存消耗不只来自这个参数——

mysqld

进程的 RSS 内存可能远超所有“可配置内存参数”之和。

真正该先做的,是用系统命令看进程实占:

ps -o pid,rss,vsz,comm -C mysqld

pmap -x $(pgrep mysqld)

。RSS 超过物理内存 80% 就危险;若 RSS 比

innodb_buffer_pool_size + key_buffer_size + sort_buffer_size * max_connections

大出一倍以上,说明有隐性内存泄漏或连接数失控。

每个连接独占

sort_buffer_size

read_buffer_size

join_buffer_size

等线程级缓冲区,

max_connections = 1000

sort_buffer_size = 4M

就可能吃掉 4GB

tmp_table_size

max_heap_table_size

控制内存临时表上限,但没设限的查询(如没加

LIMIT

GROUP BY

)会把整张中间结果塞进内存

开启

performance_schema

后,尤其在高并发下,其内部结构本身会吃掉几百 MB,且无法通过 SQL 关停

定位触发 OOM 的具体查询:从

slow_query_log

performance_schema

不是所有慢查询都吃内存,但吃内存的查询往往很慢,而且

Rows_examined

极高。关键要区分:是单条大查询撑爆内存,还是大量小查询累积耗尽。

打开

slow_query_log

并设

log_queries_not_using_indexes = ON

,同时重点看

long_query_time = 0

(记录所有查询),再配合

pt-query-digest

分析

Rows_examined

Tmp_tables

字段。如果某类查询频繁出现

Using temporary; Using filesort

Rows_examined > 1e6

,基本就是内存黑洞。

启用

performance_schema

后,查

performance_schema.memory_summary_by_thread_by_event_name

可看到各线程内存分配峰值,注意

EVENT_NAME LIKE '%memory%'

的行

information_schema.PROCESSLIST

State

Creating tmp table

Copying to tmp table

的连接,正在用内存建临时表

避免在

WHERE

JOIN

条件中对字段用函数(如

DATE(create_time)

),这会让索引失效,强制全表扫描+内存排序

innodb_buffer_pool_size

不是越大越好,Linux 的

vm.swappiness

会暗中捣鬼

innodb_buffer_pool_size = 70% RAM

是常见建议,但在容器环境或混部机器上极易翻车。InnoDB 缓冲池是 mmap 分配的匿名内存,Linux 内核不会优先把它换出,而其他进程(比如 Python 应用)的堆内存却容易被

swappiness

换出,导致 MySQL 看似“空闲”却因系统级 swap 延迟卡死。

自由画布

百度文库和百度网盘联合开发的AI创作工具类智能体

下载

更糟的是:当

innodb_buffer_pool_size

接近物理内存,而又有大量连接创建内存临时表,内核 OOM Killer 可能直接杀掉

mysqld

进程,并在

dmesg

里留下

Killed process mysqld (pid 12345)

—— 这不是 MySQL 自己报错,根本不会写进 error log。

生产环境建议:缓冲池设为物理内存的 50%~60%,留足空间给 OS cache、连接缓冲、其他服务

确认

vm.swappiness = 1

(不是 0!0 会禁用 swap,反而让 OOM Killer 更激进)

cat /proc/$(pgrep mysqld)/status | grep -E '^(VmRSS|VmSize)'

对比 RSS 和 VmSize,若 VmSize 远大于 RSS,说明有大量 mmap 区域未实际驻留,但已计入虚拟内存限额

检查

max_connections

和连接生命周期,长连接比慢查询更隐蔽地耗内存

一个空闲的 MySQL 连接仍占用至少 256KB 内存(线程栈 + 各 buffer),如果应用层用了连接池但没设

max_idle_time

,或客户端异常断连后连接没及时释放,连接数会缓慢爬升,最终在半夜流量低谷时因内存碎片化触发 OOM。

查当前连接状态:

SHOW STATUS LIKE 'Threads_connected'

,再对比

max_connections

。若长期 >70% 且

Threads_created

持续增长,说明连接复用率低;若

Threads_connected

稳定在高位但

Queries

很低,大概率是连接泄漏。

应用侧必须设连接空闲超时(如 JDBC 的

maxLifetime

idleTimeout

),数据库侧配

wait_timeout

interactive_timeout

(建议 300 秒以内)

避免在事务里长时间 sleep 或等待外部 API,事务开启期间所有分配的内存都不会释放

监控

Aborted_connects

Aborted_clients

:前者多说明认证失败洪水攻击,后者多说明客户端非正常断连,都会残留半开连接

内存问题最麻烦的从来不是参数数字,而是多个小配置叠加后产生的非线性挤压——比如

sort_buffer_size

看似才 2MB,但乘上 300 个连接,就是 600MB 隐形开销,再叠加上

tmp_table_size

和未释放的连接,就刚好卡在临界点上。盯住 RSS,而不是配置值。

相关文章

什么是LLM?看这一篇就够了!

一、全套AGI大模型学习路线 AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能! 二、640套AI大模型报告合集 这套包含640份报告的合集,涵盖了AI大...

Unity 机器学习 基础

ML-Agents 资产导入 Unity 场景创建 Unity 代码部分 Anaconda 执行 rollerball_config.yaml 机器学习逻辑处理...

【DL】2023年你应该知道的 10 大深度学习算法

3. 循环神经网络 (RNN) 4. 生成对抗网络 (GAN) 5. 径向基函数网络 (RBFN) 6. 多层感知器 (MLP) 7. 自组织图 (SOM)...

神经网络分类总结

从网络性能角度可分为连续型与离散型网络、确定性与随机性网络。 从网络结构角度可为前向网络与反馈网络。 从学习方式角度可分为有导师学习网络和无导师学习网络。 按连续突触性...

神经网络中的单层神经网络

神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。人脑中的神经网络是一个非常复杂的组织。成人的大脑中估计有1000亿个神经元之多。 看一个经典的神经网络。这是一个包...

跨平台机器学习:ML.NET架构及应用编程

平台上的一个机器学习框架,它提供了一套丰富的算法和工具,使得开发人员可以轻松地构建和部署机器学习模型。支持多种编程语言,包括等,这使得它成为跨平台机器学习的理想选择。的架构主要包括三个部分:数据读取、...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。