崗位職責:
1、系統運維保障
負責HPC集群(基于Slurm作業調度系統)的日常運維,保障超算平臺穩定運行;
維護InfiniBand(IB)網絡架構,處理網絡性能優化及故障排查;
管理分布式存儲系統(Lustre/GPFS),監控存儲容量、性能及硬件健康狀態,及時處理存儲故障。
2、硬件與設備維護
負責物理服務器(X86/ARM/GPU/SW64架構)存儲的基礎配置、硬件巡檢、故障診斷及備件更換;
維護網絡設備(交換機、路由器、防火墻等),確保網絡連通性及安全性;
配合供應商完成硬件維保及升級工作。
3、系統與安全運維
熟悉CentOS/Rocky/Ubuntu等Linux系統,執行系統巡檢、補丁升級、漏洞修復等操作;
制定并優化運維流程,編寫運維手冊、故障報告、變更記錄等技術文檔。
任職要求
大專及以上學歷,1年以上超算/HPC集群或大型數據中心運維經驗;
熟悉超算領域相關架構組件,能熟練操作Slurm作業調度系統,了解IB網絡架構原理;
具備Lustre/GPFS存儲系統維護經驗,了解分布式存儲原理。
熟練操作Linux系統,掌握Shell/Python腳本編寫能力;
熟悉服務器硬件架構(X86/ARM/GPU等),能獨立完成硬件故障排查及更換;
了解網絡基礎知識(TCP/IP、VLAN、路由協議等),具備網絡設備配置經驗。
軟性素質
責任心強,具備良好的服務意識,與用戶及團隊高效溝通,推動問題解決。
邏輯清晰,具備技術文檔編寫及問題分析能力;
良好的團隊協作與跨部門溝通能力。
加分項
持有RHCE、CCNA、HPC認證等相關證書;
有國產化平臺(如SW64、昇騰、海光架構)運維經驗;
熟悉容器化技術(Docker/Kubernetes)或自動化運維工具Ansible