外包崗位,-鼎好大廈,早十晚七,雙休,15-20K
學信網可查統招本科及以上學歷
崗位職責:
1.負責構建企業級分布式爬蟲平臺,整合多源數據采集渠道,滿足公司大數據與大模型項目對海量數據的多樣化需求;
2.針對不同行業、不同類型網站,定制個性化爬蟲策略,保障數據采集的全面性、準確性與及時性;
3.深入研究各類反爬蟲技術,包括但不限于 JavaScript 混淆、加密算法、驗證碼機制、IP 封鎖等,并制定有效策略,確保爬蟲系統穩定運行與數據持續獲?。?4.負責爬蟲數據的全流程處理,涵蓋數據清洗、去重、結構化存儲,保障數據質量符合項目要求,為后續數據分析與模型訓練提供堅實支撐;
5.實時監控爬蟲系統運行狀態,及時響應并解決各類異常情況,對系統性能進行持續優化,提升抓取效率與資源利用率;
6.與數據科學家、算法工程師緊密協作,依據項目需求調整爬蟲策略,提供定制化數據采集解決方案,助力大模型項目高效推進,同時參與數據安全管理,保障數據采集過程合規合法。
任職要求:
1.本科及以上學歷,計算機科學、軟件工程等相關專業優先,3 年以上爬蟲開發經驗,有大型項目實戰經歷者優先;
2.精通 Python 語言,熟練掌握 Scrapy、BeautifulSoup、Selenium 等主流爬蟲框架與工具,具備獨立搭建復雜爬蟲項目的能力;
3.對 HTTP/HTTPS 協議有深刻理解,熟悉 HTML、CSS、JavaScript 等前端技術,能夠解析動態網頁數據,具備 JavaScript 逆向分析能力;
4.掌握常見反爬蟲應對技巧,如 IP 代理池搭建、User - Agent 偽裝、驗證碼識別(OCR 技術、機器學習識別等),有成功繞過復雜反爬機制的案例;
5.熟悉數據庫操作,如 MySQL、MongoDB、Redis,能夠設計合理的數據存儲方案,實現數據高效存儲與檢索;
6.具備良好的團隊協作能力與溝通能力,能夠在跨部門項目中高效推進工作,對技術難題有強烈探索精神與解決能力;
7.有移動端(Android/iOS)爬蟲開發經驗,熟悉 App 逆向分析流程與工具(如 Charles、Fiddler、Xposed、Frida 等)者優先考慮。