机器检查异常
本文旨在帮助用户实现相关服务,以主动监控、记录和报告硬件错误。机器检查异常 (MCE) 是 CPU 检测到硬件错误或故障时生成的错误。
机器检查异常 (MCE) 发生的原因有很多,包括电源电压异常或超出规格、宇宙射线翻转内存 DIMM 或 CPU 中的位,或其他各种故障,包括有缺陷的软件触发硬件错误。
安装
安装 rasdaemonAUR 软件包。rasdaemon 由 Mauro Carvalho Chehab 编写,是收集 MCE 信息的工具之一。
以前,此任务由 mcelog
软件包执行。但是,它已被弃用,并且 Arch 内核甚至不再使用必要的配置选项 CONFIG_X86_MCELOG_LEGACY (FS#55657) 编译。
配置
有两个 systemd 服务需要启动并启用。ras-mc-ctl.service
使用 EDAC 驱动程序注册 DIMM 标签(来自 /etc/ras/dimm_labels.d/
)。在消费级主板上,它通常会记录一个 No dimm labels for <motherboard model>
错误,并且不执行任何操作。rasdaemon.service
作为守护程序运行,并将 RAS 事件记录到 systemd 日志。
请参阅 ras-mc-ctl(8) 和 rasdaemon(1) 以获取更多信息。
用法
您可以使用 ras-mc-ctl --error-count
和 ras-mc-ctl --summary
快速查看记录的错误。错误记录到日志以及 /var/lib/rasdaemon/ras-mc_event.db
的 sqlite 数据库中。
参见
- Wikipedia:Machine_Check_Exception
- Wikipedia:Machine_check_architecture
- Rasdaemon initial announcement
- Monitoring ECC memory on Linux with rasdaemon