更新于 5月20日

服務器硬件維護工程師(J13385)

8000-12000元·14薪
  • 杭州臨平區
  • 3-5年
  • 本科
  • 全職
  • 招3人

職位描述

服務器運維
崗位職責:
1、硬件維護
負責GPU服務器的安裝、調試、上架、故障診斷及維修。
定期檢查硬件狀態(GPU、CPU、內存、硬盤、電源等),確保設備穩定運行。
配合供應商處理硬件保修或更換(如GPU燒毀、顯存故障等)。
2、集群與驅動管理
管理大規模GPU集群(萬卡級),支持算力網絡架構(IB/RoCE/NVLink/PCIe),優化集群性能(HPL/HPCG基準測試),解決網絡通信、存儲(Lustre/CephFS)及算力調度(Slurm/PBS)問題。
部署與維護監控系統(Prometheus/Grafana/Zabbix),實時跟蹤GPU利用率、功耗及健康狀態,構建故障預警機制,設計HA測試方案(故障注入/災備切換)。
3、硬件與軟件適配
執行服務器硬件改配(如GPU升級、液冷方案部署)及軟件適配(驅動安裝、BIOS/固件更新),確保與操作系統(Linux/CentOS)、虛擬化平臺(Docker/Kubernetes)及AI框架(CUDA/TensorRT)的兼容性。
參與智算中心交付,配合完成服務器上架、網絡配置及壓力測試,支持異構加速場景(大模型訓練/推理)。
4、文檔與協作
編寫運維手冊、故障處理SOP及巡檢報告,維護維修案例庫,記錄硬件生命周期(故障歷史、配件更換)。
與研發、售前團隊協作,解決復雜技術問題(如硬件兼容性、性能瓶頸),提供客戶技術培訓及方案定制。
探索前沿技術(如Chiplet異構集成、存算一體架構),優化運維自動化工具(Ansible/Python腳本),提升故障處理效率。
任職要求:
1、專業背景
計算機、電子工程、通信等相關專業,本科及以上學歷;3年以上GPU服務器維護或數據中心運維經驗,熟悉NVIDIA/AMD主流顯卡架構(如Hopper/Ada Lovelace)者優先。
2、核心技能
硬件能力:精通GPU服務器拆裝、故障診斷(如錯誤代碼解析),掌握焊接工具(熱風槍、示波器)及備件管理,熟悉服務器BMC管理(IPMI/RedFish)。
軟件與工具:熟練使用Linux命令行,掌握自動化工具(Ansible/Kubernetes)、監控平臺(Prometheus)及集群管理工具(Slurm);熟悉Python/Shell腳本開發。
網絡與架構:理解IB/RoCE網絡協議、RDMA原理,掌握集群文件系統(Lustre/NFS)部署與調優,熟悉PCIe/CXL接口規范。
3、軟技能
具備快速故障定位能力(MTTR優化),能在7×24小時輪值中響應緊急事件;良好的客戶溝通能力,適應定制化服務需求。

工作地點

杭州臨平區臨平桂花城

職位發布者

榮女士/HR

昨日活躍
立即溝通
公司Logo盈峰環境
盈峰環境科技集團股份有限公司,深交所主板上市(股票代碼000967),旗下擁有249家子公司,全國建有3大產業基地(長沙、順德、紹興),15個研發創新平臺,329個服務網點。公司主營業務涵蓋環保裝備、城市服務、科學儀器、環衛機器人、垃圾焚燒發電、風機裝備等,是中國環境企業50強、中國機械500強、中國環衛十大影響力企業。盈峰環境環保裝備發端于國家級科研院所——建設部長沙建設機械研究院。盈峰環境致力于成為受人尊敬和信賴的以清潔服務機器人為龍頭的智能環境裝備及服務的行業引領者,圍繞以“智能裝備、智云平臺、智慧服務”為核心的智慧環衛戰略打造出公司強大競爭力。作為環保裝備領域的開拓者,公司持續引領產品技術變革,將人工智能技術賦能環衛,創新推出了一系列新能源環衛裝備、5G無人駕駛環衛機器人等行業領先產品,精準解決行業痛點難點;并將多年在技術、產品積淀和渠道資源優勢延伸到環衛服務領域,利用以物聯網、大數據、云計算等前沿技術打造的智慧環衛云平臺,開展信息化、網絡化、數字化環衛運營服務。構筑起從前端投放、中端運輸到后端處理的全產業鏈,用智慧科技締造人與自然的和諧共處。近年來,公司環保裝備銷售、城市服務年化合同額、合同總額等多次拿下“行業第一”,斬獲環保裝備和城市服務的“雙冠”業績。未來,盈峰環境將緊密圍繞“智慧環衛”戰略,持續推進環衛行業向機械化、新能源化、小型化、智能化、云聯化方向發展,構建環衛新生態。
公司主頁
久久久久国产一级毛片高清板