在vSphere平臺下安裝vGPU驅(qū)動之前需要打開ESXi的SSH服務(wù),方便來傳輸vib驅(qū)動安裝包以及后面一些命令行的操作。
ESXi需要加入vCenter,vGPU相關(guān)的一些配置都需要在vCenter下來修改。
使用WinSCP把驅(qū)動vib傳到ESXi的/tmp目錄下
安裝驅(qū)動之前先檢查一下GPU是否被正常識別到,SSH到ESXi,使用命令:lspci | grep NVIDIA 來檢查。
到/tmp目錄下,賦予vib驅(qū)動包可執(zhí)行權(quán)限,然后使用esxcli命令進行安裝,注意ESXi主機需要處于維護模式,可以在web client上修改,也可以在安裝時加上--maintenance-mode參數(shù)。
cd /tmp
chmod +x NVIDIA*
esxcli software vib install -v /tmp/NVIDIA*.vib --maintenance-mode
等待幾分鐘,安裝成功以后會有提示信息,可能在安裝信息中提示不需要重啟,但是強烈建議重啟一下主機來驗證驅(qū)動是否正常,有碰到過重啟以后驅(qū)動報錯的情況。
重啟完主機以后使用 nvidia-smi 命令來驗證驅(qū)動是否正常,正常情況下能看到類似如下信息:
特別注意2點:1、ECC模式是否顯示off 2、默認(rèn)情況下vSphere會使用vsga模式,而不是vGPU模式,所以能看到最下面xorg條目,這個我們后面改。
在部分時候,特別是使用全新的GPU,可能會看到nvidia-smi信息里面ECC區(qū)域不是off狀態(tài),而是0,而在GRID 9.0版本之前,要使用vGPU必須關(guān)閉ECC模式。
使用命令來關(guān)閉ECC,注意,啟用或者關(guān)閉ECC都需要重啟主機。
nvidia-smi -e 0
更多關(guān)于ECC的信息,請參考:
在確認(rèn)驅(qū)動狀態(tài)沒問題以后,我們登陸vCenter,定位到主機-配置-圖形,編輯主機圖形設(shè)置,可以看到默認(rèn)是共享模式,也就是vsga,我們需要切換到“直接共享“才能使用vGPU。
2種GPU分配策略,在有多個GPU的時候生效。
默認(rèn)最佳性能模式,會在所有可能的GPU上去運行虛擬機,即VM1運行在GPU1、VM2運行在GPU2,以此類推,盡可能平均的分布虛擬機,不會讓GPU閑著。
GPU整合模式,會在一個GPU核心上運行先啟動的虛擬機,直到當(dāng)前GPU沒有資源才會去使用下一個GPU核心,這個模式多用在同一臺服務(wù)器上運行多個vGPU profile的情況下。
除了主機的圖形選項,針對每個GPU也都可以單獨設(shè)置共享模式,第一次使用需要在這里再切換一下,主要是需要重啟xorg服務(wù)來改變配置,不同vSphere版本界面可能不能,部分vSphere 6.5早期版本需要手動重啟xorg服務(wù)。
更改成功以后就沒有xorg條目了,可以開始使用vGPU了!
轉(zhuǎn)自:https://www.dingqian.net/index.php/archives/52/
Copyright ? 2019-2024 青島希諾智能科技有限公司版權(quán)所有 備案號:魯ICP備19042003號-1
技術(shù)支持:微動力網(wǎng)絡(luò)