崗位職責:
1.基于業務場景(行為識別)對InternVL、QwenVL等VLM模型進行領域適配性微調,優化圖像理解、動作識別、多模態推理能力
2.構建零售場景專屬數據集,設計數據增強策略,解決遮擋、光照變化等實際場景挑戰
3.實現CV&VLM模型在邊緣設備(如Jetson系列)/云端的輕量化部署,優化推理速度與資源占用
4.開發模型服務化接口,支持實時視頻流分析與行為事件觸發機制
5.設計時序行為分析框架,融合目標檢測(如定位、姿態估計、動作分類等多模塊協同工作
6.構建基于VLM的異常行為識別系統(違規操作等場景)
7.跟進VLM前沿技術(如多模態prompt工程、模型蒸餾),探索3D視覺與VLM的融合方案
8.輸出可復用的算法組件庫,建立零售場景算法基準測試體系
崗位要求:
1.熟練掌握PyTorch框架及HuggingFace生態,具有InternVL/QwenVL等開源VLM實戰調優經驗
2.精通模型壓縮技術(量化/剪枝/知識蒸餾),有VLLM/LMdeploy等部署工具實戰經驗
3.熟悉視頻理解技術棧(OpenCV/FFmpeg/Decord),具備多線程視頻處理系統開發能力
4.具備強工程實現能力,主導過至少1個完整AI項目從研發到落地的全生命周期
5.理解行為場景特性:能通過算法設計應對監控視角差異、制服相似度、復雜背景干擾等挑戰
6.有行為識別項目經驗者優先,熟悉NTU RGB+D、AVA等行為數據集者加分
7.具備產品化思維,能協同硬件團隊優化計算資源分配方案
8.具有技術文檔撰寫習慣,代碼符合工業級可維護性標準
9.在CVPR/ICCV/ECCV等會議發表過多模態學習相關論文
10.有成功通過模型微調提升特定場景指標30%以上案例
11.具備模型服務高并發處理經驗
碩士或985,211的本科畢業生 ,30以內
我們提供:
參與千萬級門店智能化改造的行業標桿項目
配備A100/H100算力集群及邊緣設備開發套件
技術成果可快速應用于數萬線下零售場景
與VLM領域頂尖團隊定期技術交流機會