rancher无法访问

背景

rancher突然无法访问,查看rancher容器日志,报错:

2022-10-17 07:19:25.249808 W | etcdserver: read-only range request "key:\"/registry/management.cattle.io/catalogtemplateversions/cattle-global-data/chart-cloud-meter-20220927093536\" " with result "range_response_count:1 size:1416" took too long (136.163537ms) to execute

排查

1.查看系统负载情况

查看磁盘,cpu,内存,都是正常的。

file

2.搜索报错日志

https://github.com/etcd-io/etcd/issues/10860
https://www.qttc.net/522-etcd-warn-took-too-long.html
确认为磁盘性能问题,写入过慢。查看磁盘的延迟。

file

查看etcd启动参数,没有配置metrics,所以无法查看etcd_disk_wal_fsync_duration指标。

file

3.查看rancher容器日志

报错chart获取异常

file

获取chart超时

file

解决

我的机器是虚拟机,重启容器无效,重启虚拟机

删除chart

登录rancher启动应用商店查看chart,删除报错的chart,等待etcd sync,查看rancher日志没有该chart报错信息。

从上面的issue中可以得知在etcd 3.4版本以后可以配置下面的这个参数来调整告警信息。

–experimental-warning-apply-duration    100ms   如果请求超过这个时间,将报警

登录etcd node查看etcd版本

file

查看etcd支持的参数

file

当前3.4.15版本的etcd并未支持改参数。

查看3.5版本etcd

file

查看metrics

curl http://127.0.0.1:2381/metrics | grep etcd_disk_wal_fsync_duration

file

0 0 投票数
文章评分
订阅评论
提醒
guest

0 评论
内联反馈
查看所有评论

相关文章

开始在上面输入您的搜索词,然后按回车进行搜索。按ESC取消。

返回顶部
3
0
希望看到您的想法,请您发表评论x