未分类 · 2025年9月27日

dell r720+PVE+tesla p4+VGPU+飞牛OS硬解安装过程记录

服务器:dell r720xd

系统:PVE 8.2.7

显卡:tesla P4 8G

PVE 内核:6.8.12

驱动下载地址:

https://alist.homelabproject.cc/foxipan/vGPU/16.10/NVIDIA-GRID-Linux-KVM-535.247.02-535.247.01-539.28

参考教程:

一、PVE8的安装

镜像下载,地址:https://enterprise.proxmox.com/iso/

二、PVE配置开启硬件直通

前提条件:主板BIOS开启VT-D

登录PVE后台,进入shell管理终端

开启iommu

vim /etc/default/grub

#找到

GRUB_CMDLINE_LINUX_DEFAULT=”quiet”

#intel cpu 改为:

GRUB_CMDLINE_LINUX_DEFAULT=”quiet intel_iommu=on iommu=pt”

#amd cpu改为:

GRUB_CMDLINE_LINUX_DEFAULT=”quiet amd_iommu=on iommu=pt”

更新grub

update-grub

加载vfio模块

echo vfio >> /etc/modules

echo vfio_iommu_type1 >> /etc/modules

echo vfio_pci >> /etc/modules

echo vfio_virqfd >> /etc/modules

更新内核参数

update-initramfs -k all -u

屏蔽系统中的开源显卡驱动避免开启显卡被系统加载

#AMD显卡

echo “blacklist radeon” >> /etc/modprobe.d/blacklist.conf

echo “blacklist amdgpu” >> /etc/modprobe.d/blacklist.conf

#NVIDIA显卡

echo “blacklist nouveau” >> /etc/modprobe.d/blacklist.conf

echo “blacklist nvidia” >> /etc/modprobe.d/blacklist.conf

echo “blacklist nvidiafb” >> /etc/modprobe.d/blacklist.conf

#INTEL核显

echo “blacklist snd_hda_intel” >> /etc/modprobe.d/blacklist.conf

echo “blacklist snd_hda_codec_hdmi” >> /etc/modprobe.d/blacklist.conf

echo “blacklist i915” >> /etc/modprobe.d/blacklist.conf

更新内核并重启

update-initramfs -k all -u

reboot

三、安装nvidia显卡宿主机vgpu驱动

https://alist.homelabproject.cc/foxipan/vGPU/16.10/NVIDIA-GRID-Linux-KVM-535.247.02-535.247.01-539.28

选择host drivers

SSH进PVE 使用wget命令下载驱动文件

wget https://alist.homelabproject.cc/d/foxipan/vGPU/16.10/NVIDIA-GRID-Linux-KVM-535.247.02-535.247.01-539.28/Host_Drivers/NVIDIA-Linux-x86_64-535.247.02-vgpu-kvm.run

添加执行权限

chmod +x NVIDIA-Linux-x86_64-535.247.02-vgpu-kvm.run

安装显卡驱动需要用到的依赖

apt install build-essential dkms mdevctl pve-headers-$(uname -r)

安装命令:

./NVIDIA-Linux-x86_64-535.247.02-vgpu-kvm.run

卸载命令:

./NVIDIA-Linux-x86_64-535.247.02-vgpu-kvm.run --uninstall

安装完成后reboot重启PVE

安装过程会有一个蓝色界面 提示是不是安装,默认按回车就可以了,然后中途会提示是不是什么 dkms 默认回车就行了,最后会提示成功.,可以输入nvidia-smi 看看安装发了没,如果安装好了会有下面图片这样的显示(有显示就行,内容可以忽略)。然后就可以重启机器了,,不重启在WEB页里面是添加不了VGPU的。

重启后进入虚拟机硬件页面添加PCI设备根据图片提示操作,机型选择Q35,类型我选择的是P4-2Q 就是2G显存,最多可以分4台机器用。选1Q就可以分8台机子用。

我添加到飞牛这个虚拟机能正常开机,,添加到群晖虚拟机就开不了机,不知道什么问题?,不知道是不是因为群晖已经直通过阵列卡的问题。

四、飞牛OS安装显卡驱动

SSH进飞牛OS,并切换到root用户


# 切换root权限
sudo -i

# 屏蔽nouveau
echo "blacklist nouveau" >> /etc/modprobe.d/blacklist-nouveau.conf

# 更新initramfs
update-initramfs -u

# 安装aptitude包管理工具
apt update && apt install aptitude

# 使用 aptitude 自动解决依赖冲突
aptitude install build-essential dkms linux-headers-generic libglvnd-dev pkg-config -y

# 清理缓存
apt clean
apt autoclean
rm -rf /var/lib/apt/lists/*
apt update

# 安**uild-essential dkms 等依赖包
apt install build-essential dkms linux-headers-generic libglvnd-dev pkg-config -y

# 重启飞牛
reboot

保存并退出。

下载驱动文件

wget https://alist.homelabproject.cc/d/foxipan/vGPU/16.10/NVIDIA-GRID-Linux-KVM-535.247.02-535.247.01-539.28/Guest_Drivers/NVIDIA-Linux-x86_64-535.247.01-grid.run
chmod +x NVIDIA-Linux-x86_64-535.247.01-grid.run
./NVIDIA-Linux-x86_64-535.247.01-grid.run

安装过程中会提示乱七八糟看不懂的东西,要看的自己翻译,我全部选择的YES

安装完了后重启机器,再进去SSH

输入nvidia-smi 就会显示显卡信息

查看PCI显卡命令

lspci | grep -i nvidia

五、搭建授权服务器

可以用PVE LXC新建一个DEBIAN12机子安装一个docker

一键换源脚本:bash <(curl -sSL https://linuxmirrors.cn/main.sh)

docker 安装一键脚本:bash <(curl -sSL https://linuxmirrors.cn/docker.sh)

执行命令

docker run -d -e DLS_URL=IP地址填自己的 -e DLS_PORT=1020 -p 1020:443  makedie/fastapi-dls 

参考教程:https://www.toutiao.com/article/7283058850310210107/

https://192.168.31.20:1020 查看授权服务是否正常运行:显示页面就算正常了

然后在飞牛OS SSH下运行命令

# 下载授权文件
curl --insecure -L -X GET https://服务器IP地址:1020/-/client-token -o /etc/nvidia/ClientConfigToken/client_configuration_token_$(date '+%d-%m-%Y-%H-%M-%S').tok
# 重启英伟达服务
service nvidia-gridd restart
# 查看授权状态
nvidia-smi -q | grep License 

WINDOWS命令

# 下载授权文件
curl.exe --insecure -L -X GET https://服务器IP地址:1020/-/client-token -o "C:\Program Files\NVIDIA Corporation\vGPU Licensing\ClientConfigToken\client_configuration_token_$($(Get-Date).tostring('dd-MM-yy-hh-mm-ss')).tok"
# 重启英伟达服务
Restart-Service NVDisplay.ContainerLocalSystem
# 查看授权状态
nvidia-smi.exe -q | Select-String License

重启一下飞牛OS 然后在飞牛影视的设置里面应该就可以正常设置显卡了

在没有安装驱动和授权的时候 这里也会有显示,,但选择不了 ,,选择就会报错