解。。。
0 背景
最近实验室的gpu服务器⽼是出问题,需要重新装显卡驱动。⽹上教程⾮常⽼旧,很多说的都不知所云。
作者曾经尝试的安装⽅法和结果:
官⽹下载driver——安装失败
直接⽤cuda toolkit,⼀⼝⽓安装驱动和cuda——安装失败
所以作者采⽤了本⽂中的⽅法。
本教程旨在记录本⼈亲⾃安装成功的⼀次经历。在相同的系统环境下可安装成功,不同系统环境仅供参考,不保证成功。
本⽂旨在简洁明了、可直接复制命令执⾏、可复现、可读性好。
本⽂环境:
ubuntu server 20.04,其他系统仅供参考!
注意,本⽂仅适⽤于ubuntu server,不需要图形界⾯,没有对图形界⾯进⾏特殊考虑和验证!依赖图形操作界⾯的读者慎⽤!
注意,本⽂仅适⽤于ubuntu server,不需要图形界⾯,没有对图形界⾯进⾏特殊考虑和验证!依赖图形操作界⾯的读者慎⽤!
1 安装nvidia驱动
1.1 查看是否安装了gcc
gcc -v
若没有安装,则输⼊下⾯的命令,直接把包括gcc在内很多开发⼯具包⼀同安装
sudo apt-get install build-essentialubuntu安装教程
1.2 禁⽤nouveau驱动
编辑 /etc/modprobe.f ⽂件,添加以下内容:
blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0
alias nouveau off
alias lbm-nouveau off
关闭nouveau:
echo options nouveau modeset=0 | sudo tee -a /etc/modprobe.f
注意,本⽂仅适⽤于ubuntu server,不需要图形界⾯,没有对图形界⾯进⾏特殊考虑和验证!依赖图形操作界⾯的读者慎⽤!
注意,本⽂仅适⽤于ubuntu server,不需要图形界⾯,没有对图形界⾯进⾏特殊考虑和验证!依赖图形操作界⾯的读者慎⽤!
注意,本⽂仅适⽤于ubuntu server,不需要图形界⾯,没有对图形界⾯进⾏特殊考虑和验证!依赖图形操作界⾯的读者慎⽤!
完成后,重新⽣成内核并重启:
sudo update-initramfs -u
sudo reboot
重启后,执⾏:lsmod | grep nouveau。如果没有屏幕输出,说明禁⽤nouveau成功。否则,应重新执⾏第1.2⼩节。
1.3 安装驱动
使⽤命令ubuntu-drivers devices获取可⽤驱动信息,如果命令不存在⾃⼰安装⼀下。
输出为(不同电脑依据配置输出不同,我这⾥还有报错但是不影响)
ERROR:root:could not open aplay -l
Traceback (most recent call last):
File "/usr/share/ubuntu-drivers-common/detect/sl-modem.py", line 35, in detect
aplay = subprocess.Popen(
File "/usr/lib/python3.8/subprocess.py", line 854, in __init__
self._execute_child(args, executable, preexec_fn, close_fds,
File "/usr/lib/python3.8/subprocess.py", line 1702, in _execute_child
raise child_exception_type(errno_num, err_msg, err_filename)
FileNotFoundError: [Errno 2] No such file or directory: 'aplay'
== /sys/devices/pci0000:17/0000:17:00.0/0000:18:00.0 ==
modalias : pci:v000010DEd00002204sv000010DEsd00001454bc03sc00i00
vendor : NVIDIA Corporation
driver : nvidia-driver-470 - distro non-free recommended
driver : nvidia-driver-460 - distro non-free
driver : nvidia-driver-470-server - distro non-free
driver : nvidia-driver-495 - distro non-free
driver : nvidia-driver-460-server - distro non-free
driver : xserver-xorg-video-nouveau - distro free builtin
从上述信息中到driver,后⾯recommend,发现了系统推荐安装的驱动程序nvidia-driver-470。这⾥考虑到是ubuntu server,所以我最终选择了nvidia-driver-470-server。
执⾏命令安装驱动:sudo apt install nvidia-driver-470-server
等待安装完成后,执⾏nvidia-smi可以输出gpu监控界⾯,则驱动安装成功!从监控信息中我们可以看到cuda版本是11.4,所以下⾯我们安装cuda toolkit的时候也是安装这个版本的。
2 安装cuda
wget developer.download.nvidia/compute/cuda/11.4.0/local_installers/cuda_11.4.0_470.42.01_linux.run
sudo sh cuda_11.4.0_470.42.01_linux.run
注意,当提醒你已经安装了driver的时候,直接continue。当选择安装内容的时候,务必把driver前⾯的x取消掉,因为我们已经安装了驱
动
安装完成后重启,输⼊nvcc -V显⽰相关信息,则安装成功!
3 解决服务器ssh⼀段时间后连不上的问题
装好驱动后,发现服务器⼀段时间后ssh就连不上了,必须得重启才⾏。后来看了服务器⽇志才发现是服务器设置了⾃动挂起。
输⼊命令:systemctl status sleep.target
输出信息:
● sleep.target - Sleep
Loaded: loaded (/lib/systemd/system/sleep.target; static; vendor preset: enabled)
Active: inactive (dead)
Docs: man:systemd.special(7)
可以发现loaded。说明⾃动sleep是启⽤了。
我们输⼊命令:sudo systemctl mask sleep.target suspend.target hibernate.target hybrid-sleep.target将其禁⽤。
输⼊命令:systemctl status sleep.target
输出信息:
● sleep.target
Loaded: masked (Reason: Unit sleep.target is masked.)
Active: inactive (dead)
说明禁⽤成功!
再次提醒:
注意,本⽂仅适⽤于ubuntu server,不需要图形界⾯,没有对图形界⾯进⾏特殊考虑和验证!依赖图形操作界⾯的读者慎⽤!
注意,本⽂仅适⽤于ubuntu server,不需要图形界⾯,没有对图形界⾯进⾏特殊考虑和验证!依赖图形操作界⾯的读者慎⽤!
注意,本⽂仅适⽤于ubuntu server,不需要图形界⾯,没有对图形界⾯进⾏特殊考虑和验证!依赖图形操作界⾯的读者慎⽤!
如果读者依赖图形界⾯,本⽂没有进⾏特殊考虑和验证,不能确定会不会有问题,请读者留意并结合其他教程使⽤!
4 参考资料
发布评论