TORQUE resource manager
- PBS是功能最為齊全的區域集群排程器之一。 PBS的目前包括openPBS,PBS Pro和Torque三個主要分支。
- 其中OpenPBS是最早的PBS系統,目前已經沒有太多后續開發。
- PBS pro是PBS的商業版本,功能最為豐富。
- Torque是Clustering公司接過了OpenPBS,并給與后續支援的一個開源版本,目前專案至於github上。
什麼是資源管理器(resource manager)?
雖然Torque有一個內建的調度程式pbs_sched,但調度程序向它發出請求時,它通常只用作資源管理器。資源管理器提供低階功能來啟動,保持,取消和監視作業(job)。 沒有這些能力,調度程序本身不能控製作業。
什麼是批次系統(batch system)?
批次系統是在整體大於部分的總和的概念下操作的計算機和其他資源(網路,存儲系統,許可證伺服器等)的集合。 一些批處理系統只包括少數運行單處理器作業的機器,最低限度由用戶自己管理。 其他系統有成千上萬台機器同時執行用戶的作業,同時跟踪軟件許可證和訪問硬體設備和存儲系統。
在批次系統中集中資源通常減少了資源的技術管理,同時向用戶提供統一的視圖。 一旦配置正確,批處理系統就會抽取出與運行和管理作業相關的許多細節,從而提高資源利用率。 例如,用戶通常只需要指定作業的最小約束,並且不需要知道它們正在其上運行的每個主機的單獨機器名稱。 使用這種統一的抽象視圖,批處理系統可以同時執行數千和數千個作業。
- 批處理系統由四個不同的組件組成:
- 主節點(master node)
- 提交/交互節點 (submit/interactive node)
- 計算節點(computing node)
- 資源(resource)
Ubuntu16.04安裝
- deb包是2.4.17,而官方已於2012-08-31停止對此版本的支援。
- 官方目前最新是6.1.0版(2016-11-10)
- ./configure --prefix=/opt/torque --with-scp --with-server-home=/var/spool/torque
- --with-scp是要求它使用scp來當複製檔案的工具,預設為rcp(建議使用scp)
- prefix是放主程式的位置
- with-server-home是放設定檔的地方,預設值為/var/spool/torque
make -j4; sudo make install
若不打算以NFS共享已安裝的TORQUE到運算節點上的話,可以用 make packages 指令製作給節點用的安裝檔。
- 節點上的安裝僅需torque-package-clients-linux-x86_64.sh、torque-package-mom-linux-x86_64.sh這兩個檔案複製過去後執行./torque-package-clients-linux-x86_64.sh --install即可完成節點上的安裝,路徑會跟server上使用的路徑一樣。
到此基本的安裝就完成了,不過接下來的設定才是最重要的部分。
Torque環境設定
如果不是裝在預設位置的話需要先把程式路徑設定在環境變數裡,不這麼做的話就有可能在執行時遇上pbs_server: not found之類的錯誤訊息,或是在呼叫相關的函式庫時出現error while loading shared libraries: libtorque.so.2: cannot open shared object file: No such file or directory。
將以下設定寫入你的環境設定檔:
- export PBS=/usr/torque
- export PBS_SERVER_HOME=/var/spool/torque
- export TORQUE=$PBS
- export PATH=$PBS/bin:$PBS/sbin:$PATH
- export MANPATH=$PBS/man:$MANPATH
- export LD_LIBRARY_PATH=$PBS/lib:$LD_LIBRARY_PATH
然後source一下讓設定生效,再用which檢查設定是否正確: which pbs_server
- 之後檢查一下TORQUE Server的server_name有沒有設定對,這是程式幫你設定的,應該是沒問題 cat /var/spool/torque/server_name