机器检查异常

来自Arch维基

本文旨在帮助用户实现相关服务,以主动监控、记录和报告硬件错误。机器检查异常 (MCE) 是 CPU 检测到硬件错误或故障时生成的错误。

机器检查异常 (MCE) 发生的原因有很多,包括电源电压异常或超出规格、宇宙射线翻转内存 DIMM 或 CPU 中的位,或其他各种故障,包括有缺陷的软件触发硬件错误。

安装

安装 rasdaemonAUR 软件包。rasdaemon 由 Mauro Carvalho Chehab 编写,是收集 MCE 信息的工具之一。

以前,此任务由 mcelog 软件包执行。但是,它已被弃用,并且 Arch 内核甚至不再使用必要的配置选项 CONFIG_X86_MCELOG_LEGACY (FS#55657) 编译。

配置

有两个 systemd 服务需要启动并启用。ras-mc-ctl.service 使用 EDAC 驱动程序注册 DIMM 标签(来自 /etc/ras/dimm_labels.d/)。在消费级主板上,它通常会记录一个 No dimm labels for <motherboard model> 错误,并且不执行任何操作。rasdaemon.service 作为守护程序运行,并将 RAS 事件记录到 systemd 日志

请参阅 ras-mc-ctl(8)rasdaemon(1) 以获取更多信息。

用法

您可以使用 ras-mc-ctl --error-countras-mc-ctl --summary 快速查看记录的错误。错误记录到日志以及 /var/lib/rasdaemon/ras-mc_event.db 的 sqlite 数据库中。

参见

硬件文档