当前位置:首页 > AI技术 > 正文内容

开发mysql如何排查Out of memory错误 mysql内存分配调优最佳践|Duuu笔记

admin7天前AI技术25

基于真实项目经验的前端实战分享

应先用 ps 或 pmap 查 mysqld 进程 RSS 内存,而非仅调大 innodb_buffer_pool_size;RSS 超物理内存 80% 或远超配置参数总和时,需排查连接泄漏、临时表滥用、performance_schema 开销等隐性内存消耗。

mysqld

进程实际内存占用,别只看

SHOW VARIABLES

MySQL 报

Out of memory

时,很多人第一反应是调大

innodb_buffer_pool_size

,结果反而更早崩。真实内存消耗不只来自这个参数——

mysqld

进程的 RSS 内存可能远超所有“可配置内存参数”之和。

真正该先做的,是用系统命令看进程实占:

ps -o pid,rss,vsz,comm -C mysqld

pmap -x $(pgrep mysqld)

。RSS 超过物理内存 80% 就危险;若 RSS 比

innodb_buffer_pool_size + key_buffer_size + sort_buffer_size * max_connections

大出一倍以上,说明有隐性内存泄漏或连接数失控。

每个连接独占

sort_buffer_size

read_buffer_size

join_buffer_size

等线程级缓冲区,

max_connections = 1000

sort_buffer_size = 4M

就可能吃掉 4GB

tmp_table_size

max_heap_table_size

控制内存临时表上限,但没设限的查询(如没加

LIMIT

GROUP BY

)会把整张中间结果塞进内存

开启

performance_schema

后,尤其在高并发下,其内部结构本身会吃掉几百 MB,且无法通过 SQL 关停

定位触发 OOM 的具体查询:从

slow_query_log

performance_schema

不是所有慢查询都吃内存,但吃内存的查询往往很慢,而且

Rows_examined

极高。关键要区分:是单条大查询撑爆内存,还是大量小查询累积耗尽。

打开

slow_query_log

并设

log_queries_not_using_indexes = ON

,同时重点看

long_query_time = 0

(记录所有查询),再配合

pt-query-digest

分析

Rows_examined

Tmp_tables

字段。如果某类查询频繁出现

Using temporary; Using filesort

Rows_examined > 1e6

,基本就是内存黑洞。

启用

performance_schema

后,查

performance_schema.memory_summary_by_thread_by_event_name

可看到各线程内存分配峰值,注意

EVENT_NAME LIKE '%memory%'

的行

information_schema.PROCESSLIST

State

Creating tmp table

Copying to tmp table

的连接,正在用内存建临时表

避免在

WHERE

JOIN

条件中对字段用函数(如

DATE(create_time)

),这会让索引失效,强制全表扫描+内存排序

innodb_buffer_pool_size

不是越大越好,Linux 的

vm.swappiness

会暗中捣鬼

innodb_buffer_pool_size = 70% RAM

是常见建议,但在容器环境或混部机器上极易翻车。InnoDB 缓冲池是 mmap 分配的匿名内存,Linux 内核不会优先把它换出,而其他进程(比如 Python 应用)的堆内存却容易被

swappiness

换出,导致 MySQL 看似“空闲”却因系统级 swap 延迟卡死。

自由画布

百度文库和百度网盘联合开发的AI创作工具类智能体

下载

更糟的是:当

innodb_buffer_pool_size

接近物理内存,而又有大量连接创建内存临时表,内核 OOM Killer 可能直接杀掉

mysqld

进程,并在

dmesg

里留下

Killed process mysqld (pid 12345)

—— 这不是 MySQL 自己报错,根本不会写进 error log。

生产环境建议:缓冲池设为物理内存的 50%~60%,留足空间给 OS cache、连接缓冲、其他服务

确认

vm.swappiness = 1

(不是 0!0 会禁用 swap,反而让 OOM Killer 更激进)

cat /proc/$(pgrep mysqld)/status | grep -E '^(VmRSS|VmSize)'

对比 RSS 和 VmSize,若 VmSize 远大于 RSS,说明有大量 mmap 区域未实际驻留,但已计入虚拟内存限额

检查

max_connections

和连接生命周期,长连接比慢查询更隐蔽地耗内存

一个空闲的 MySQL 连接仍占用至少 256KB 内存(线程栈 + 各 buffer),如果应用层用了连接池但没设

max_idle_time

,或客户端异常断连后连接没及时释放,连接数会缓慢爬升,最终在半夜流量低谷时因内存碎片化触发 OOM。

查当前连接状态:

SHOW STATUS LIKE 'Threads_connected'

,再对比

max_connections

。若长期 >70% 且

Threads_created

持续增长,说明连接复用率低;若

Threads_connected

稳定在高位但

Queries

很低,大概率是连接泄漏。

应用侧必须设连接空闲超时(如 JDBC 的

maxLifetime

idleTimeout

),数据库侧配

wait_timeout

interactive_timeout

(建议 300 秒以内)

避免在事务里长时间 sleep 或等待外部 API,事务开启期间所有分配的内存都不会释放

监控

Aborted_connects

Aborted_clients

:前者多说明认证失败洪水攻击,后者多说明客户端非正常断连,都会残留半开连接

内存问题最麻烦的从来不是参数数字,而是多个小配置叠加后产生的非线性挤压——比如

sort_buffer_size

看似才 2MB,但乘上 300 个连接,就是 600MB 隐形开销,再叠加上

tmp_table_size

和未释放的连接,就刚好卡在临界点上。盯住 RSS,而不是配置值。

相关文章

推荐10个AI人工智能技术网站

除了研究和开发人工智能技术,OpenAI还积极参与人工智能伦理和安全的研究和探讨。 认为,人工智能技术的发展必须遵循伦理和法律的规范,以确保人工智能的应用不会对人类带来负面影响。...

深入理解前端开发:Minimax视频生成黑科技:复杂动作模拟完全指南|Duuu笔记

为精准模拟复杂动作,需采用分帧提示词构建、骨骼关键点引导注入和多阶段动作蒸馏三法:一、将动作拆解为带空间姿态的关键帧序列并加物理约束;二、注入2D/3D关键点坐标锚定关节位置;三、通过粗生成→特征提取...

从入门到精通:AI之openclaw能否用于机器人控制 openclaw机器人开发支持介绍【介绍】|Duuu笔记

应采用标准化桥接机制实现OpenClaw AI到实体机器人控制的指令转化:一、通过伯克利Open CLAW直连硬件,利用HSM映射动作基元为伺服指令;二、构建ROS2+OpenClaw AI双栈架构,...

前端开发实战详解:MuleRun如何分享Agent MuleRun Agent分享链接生成教程最佳实践|Duuu笔记

需通过生成专属链接分享MuleRun平台中的Agent:先登录并进入Agent编辑页,启用Public Sharing后生成https://mulerun.com/share/开头的唯一链接,可选设A...

AI核心技巧:OpenClaw怎么在Windows用Llama3 OpenClaw跨平台运行模型指南【指南】深度解析|Duuu笔记

需依次完成五步:一、用Ollama拉取并构建llama3:8b及32K上下文版本;二、配置Ollama监听0.0.0.0:11434并设置OpenClawAI指向该地址及模型标识;三、启动网关并测试响...

深入理解前端开发:痛点解决:长对话太烧钱?教你利用 Context Caching 实现低成本记忆完全指南|Duuu笔记

启用KV Cache复用、分层截断+摘要注入、客户端Token滑动窗口管理、冷热数据分离存储可降低长对话推理成本。 ☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSe...

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。