【崗位職責】
1、負責設計、構建和優化高質量的代碼數據集,以支持代碼大模型的研發
2、建立和完善數據質量評估體系,定期對數據集進行審核,保證數據的準確性、完整性和一致性。
3、確保所有數據收集和使用過程遵守相關的法律法規,實施有效的數據保護措施,維護用戶隱私。
4、緊跟行業動態和技術進步,不斷探索新的方法和技術來提升數據處理效率和效果。
【任職要求】
1. 至少2年以上的AI/NLP領域工作經驗,特別在代碼大數據處理方面擁有深入的理解和實踐經驗。
2. 具備從零開始構建大規模多語言代碼數據集的能力,包括但不限于數據采集、清洗、標注及結構化處理。熟悉如何通過算法提高數據質量和減少噪音。在GitHub、Stack Overflow、Kaggle等平臺有系統性代碼數據采集經驗(需提供案例說明)。
3. 精通Python及其相關數據處理庫(如Scrapy, pandas, SQL等),并能夠開發自定義腳本或工具來加速數據處理流程。對大數據處理框架(如Hadoop, Spark)有一定了解更佳。
4. 對開源生態有深刻理解,熟悉主流開源協議(MIT/GPL/Apache等)及數據合規要求,需能主動參與開源社區,識別有價值的數據源,并確保所有數據操作符合合規要求。
5. 對于特定領域的數據處理(例如算法競賽、開源項目貢獻歷史等)有獨特見解和成功案例者優先考慮。能夠基于具體業務場景,提出創新性的數據解決方案。
6. 優秀的溝通能力和團隊合作精神,能夠與跨職能團隊有效合作,共同推動項目的進展。