报错信息
k8s机器NotReady,无法登录服务器,过了一会后登录成功,查看load高达100多。
CPU负载都不高。查看dmesg没有异常,查看messages日志有如下报错:
原因
soft lockup,内核软死锁。这个bug没有让系统彻底死机,但是若干个进程(或者kernel thread)被锁死在了某个状态(一般在内核区域),很多情况下这个是由于内核锁的使用的问题。这台机器上跑着mysql和若干java程序,一次io下发命令过多导致。
解决
修改watchdog的检测时间。
cat /proc/sys/kernel/watchdog_thresh
# 永久生效
echo 30 > /proc/sys/kernel/watchdog_thresh
# 临时生效
sysctl -w kernel.watchdog_thresh=30
修改后如果还有报错,就需要查看使用kdump来收集内核崩溃信息了。