崗位職責:
1. 負責大模型訓練平臺的架構設計、核心模塊開發與性能優化,支持大規模分布式訓練任務;
2. 參與數據集的構建、清洗、預處理及高效存儲方案設計,確保數據質量與訓練效率;
3. 實現模型微調(Fine-tuning)全流程工具鏈開發,包括參數配置、訓練策略優化及資源調度;
4. 開發模型驗證與評估系統,設計自動化測試框架,確保模型效果符合業務需求;
5. 優化訓練-驗證-部署全鏈路流程,提升平臺易用性與穩定性;
6. 跟蹤大模型技術前沿,探索高性能計算、顯存優化等關鍵技術落地。
任職要求
1. 必備技能:
- 計算機相關專業??萍耙陨蠈W歷,3年以上Python開發經驗;
- 熟悉大模型訓練框架(如PyTorch、DeepSpeed、Megatron-LM等),有模型訓練平臺開發經驗;
- 具備大模型應用或大模型訓練平臺開發經驗;
- 熟悉數據處理工具鏈(Pandas/Numpy/Dask等),具備大規模數據集構建與管理經驗;
- 熟悉Linux開發環境,了解Docker/Kubernetes等容器化技術。
- 了解理解模型微調技術(如Lora、Adapter等),能獨立完成訓練流程開發與調優;
- 了解模型評估指標(如BLEU、ROUGE、準確率等)及驗證工具開發;
2. 加分項:
- 有LLM(如Qwen、ChatGLM、Baichuan等)訓練或優化經驗;
- 熟悉LangChain、LlamaIndex等開源生態;
- 掌握模型壓縮、量化或推理加速技術;