欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 健康 > 美食 > Proxmox 主机与虚拟机全部断网问题排查与解决记录

Proxmox 主机与虚拟机全部断网问题排查与解决记录

2025/7/12 23:10:12 来源:https://blog.csdn.net/kaka_buka/article/details/148107029  浏览:    关键词:Proxmox 主机与虚拟机全部断网问题排查与解决记录

Proxmox 主机与虚拟机全部断网问题排查与解决记录

关键词:Proxmox、e1000e、板载网卡、断网、网络桥接、Hardware Unit Hang、网卡挂死


背景

近期在使用 Proxmox VE 管理服务器时,遇到一个奇怪的问题:每当在某个虚拟机中执行某些操作,主机与所有虚拟机会突然断网,远程无法访问。但回家接上显示器发现,主机其实并未死机,系统仍在正常运行。

问题反复出现,重启后可恢复,但一旦操作重复,现象再次出现。


初步判断

现象归纳:

内容
系统平台Proxmox VE(基于 Debian)
主板网卡板载 Intel 网卡(驱动为 e1000e
网络结构Proxmox 桥接网络(vmbr0enp0s25
触发条件Rocket.Chat 服务启动或执行 Workspace 注册操作
故障表现主机与虚拟机全部断网,但系统无死机现象

深入排查过程

1. 查看系统日志

使用 journalctldmesg 查询网络接口相关信息:

journalctl --since "2025-05-20 15:00" --until "2025-05-20 19:00" > proxmox_net.log
发现如下报错反复出现:
e1000e 0000:00:19.0 enp0s25: Detected Hardware Unit Hang:TDH                  <d5>TDT                  <fb>next_to_use          <fb>next_to_clean        <d4>...

2. 研判日志含义

e1000e 是 Intel 板载网卡常用的驱动之一,特别是 I217 / I218 / I219 系列芯片。
此类报错表示网卡在发送数据过程中,硬件 DMA 通道或描述符环发生了死锁/卡顿,系统层无法恢复,导致网卡功能彻底丧失。


结论:网卡驱动“硬件挂起”导致桥接中断

结合日志和复现步骤,可以判断:

  • 板载网卡 e1000e 在突发流量场景下,存在 已知稳定性问题
  • 挂起后不会自动恢复,导致主机与所有桥接的虚拟机全部断网;
  • 此问题与 Proxmox 无关,而是Linux 内核 + 网卡驱动层面的问题。

解决方案与应对措施

一、立即止血:Watchdog 自动恢复网络

创建自动检测网络并恢复的脚本 /usr/local/bin/net_watchdog.sh

#!/bin/bash
LOG="/var/log/net_watchdog.log"
IFACE="enp0s25"
GATEWAY="192.168.1.1"ping -c 1 -W 2 $GATEWAY > /dev/null 2>&1
if [ $? -ne 0 ]; thenecho "$(date): 网络断开,重启 $IFACE" >> $LOGip link set $IFACE downsleep 2ip link set $IFACE upsystemctl restart networking
fi

加入定时任务(每分钟执行一次):

crontab -e
* * * * * /usr/local/bin/net_watchdog.sh

二、配置内核参数,禁用节能模式并调整中断方式

编辑 /etc/default/grub

GRUB_CMDLINE_LINUX_DEFAULT="quiet pcie_aspm=off e1000e.IntMode=1"

更新 grub 并重启:

update-grub
reboot

解释:

  • pcie_aspm=off 关闭 PCIe 电源节能模式;
  • e1000e.IntMode=1 强制使用中断模式,规避多核中断 bug。

三、长期根治方案:更换独立网卡

板载 e1000e 网卡在某些场景下难以彻底修复。最稳定可靠的做法是:

选购一块 Intel 专业级独立网卡:
  • Intel I210-T1(千兆,单口,强烈推荐)

安装方式:

  1. 主机关机,插入 PCIe 插槽;
  2. 启动系统后识别为新网卡(如 enp3s0);
  3. 修改 /etc/network/interfaces,将 vmbr0 绑定到新网卡;
  4. 重启网络服务或重启主机。

经验教训:虚拟化环境中,桥接网络对物理网卡的稳定性要求极高。板载网卡虽方便但不一定可靠,独立网卡 + 硬件隔离是保障长期稳定运行的关键。

在这里插入图片描述

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词