1. 问题现象

当Linux服务器的内存耗尽时，可能会出现以下现象：

CPU卡死：CPU的执行速度变得异常缓慢，指令无法正常执行。
Docker服务失效：无法执行docker stop、docker rm -f、docker ps等命令，容器停不下来，甚至无法通过service docker restart重启Docker服务。
系统卡死：即使尝试重启Docker服务，系统依旧卡顿严重，无法恢复正常状态。

2. 原因分析

导致这种问题的常见原因包括：

内存耗尽（OOM，Out of Memory）：服务器内存被完全占用，导致系统无法为新进程分配内存，进而影响系统的正常运行。CPU虽然可能仍有空闲，但因内存不足，很多进程无法正常调度。
过度的容器负载：运行了大量的Docker容器或某些容器消耗了过多的内存，导致服务器资源枯竭。
Docker服务失效：由于系统资源枯竭，Docker的后台进程可能无法获取足够的资源，导致其指令无法响应。

3.1 检查内存使用情况

即使系统卡顿，尝试使用以下命令确认内存的使用情况：

free -h

如果显示可用内存极少或为0，说明系统内存已耗尽。

3.2 使用dmesg查看OOM杀死记录

使用dmesg命令检查系统日志，看看是否有进程因内存耗尽被内核的OOM Killer杀死：

dmesg | grep -i "out of memory"

3.3 检查Docker服务状态

查看Docker服务是否出现问题：

systemctl status docker

如状态显示异常，Docker可能因内存问题无法正常工作。

4.1 手动释放内存

由于系统内存耗尽导致各种命令无效，首先需要尝试释放内存资源。可以通过以下步骤来恢复服务器：

4.1.1 杀死占用大量内存的进程

使用top或htop查看内存占用情况，找到占用内存最大的进程，并尝试手动杀死：

top -o %MEM  # 按内存使用排序
kill -9 <PID>  # 使用进程ID（PID）杀死进程

4.1.2 手动释放缓存

释放系统缓存有时可以帮助恢复部分内存资源：

sync; echo 1 > /proc/sys/vm/drop_caches

注意：这不会清空内存，而是释放缓存。

4.2 强制重启Docker服务

如果仍无法正常操作Docker服务，可以考虑以下步骤：

4.2.1 重启Docker进程

尝试通过杀死Docker的后台进程并重启Docker服务：

pkill -9 dockerd  # 强制杀死Docker进程
systemctl restart docker

这会重启Docker守护进程，但可能导致正在运行的容器失效。

4.3 重新启动系统

如果系统依旧卡顿，无法恢复，最后的解决方法可能是强制重启服务器：

reboot

为了避免此类问题再次发生，推荐采用以下策略：

5.1 配置资源限制

为每个Docker容器设置内存限制，防止容器占用过多的内存资源：

docker run -m 512m --memory-swap 1g <container>

这将为容器限制512MB内存，且最大可使用1GB的内存和swap空间。

5.2 使用监控工具

启用监控工具如Prometheus、Grafana来实时监控服务器的内存使用情况，并设置告警阈值，当内存使用率接近100%时及时通知运维人员进行处理。

5.3 调整虚拟内存

适当增加虚拟内存（swap），以便在物理内存耗尽时系统还能继续运行：

sudo fallocate -l 2G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

END