崗位職責:
1、負責設計和開發分布式爬蟲和調度系統,爬蟲核心算法和調度策略優化;
2、負責部分網站驗證碼破解和現有爬蟲系統效率的提升;
3、負責網絡數據抓取規劃和數據鏈路規劃、高效且穩定爬取指定網站的數據;
4、構建高可用性、高可擴展性的網絡信息搜集平臺;
5、優化現有數據清洗,數據提取,結構化,入庫等過程;
6、深度思考并參與業務等數據瓶頸,并有效解決;
7、項目中遇到其他問題。
任職要求
1、計算機相關專業,python語言,三年以上爬蟲經驗;
2、有獨立負責過爬蟲平臺搭建、爬蟲系統處理經驗,爬蟲項目規劃能力;;
3、熟悉Scrapy、Pyspider、nutch、webmagic等主流爬蟲框架使用,了解js引擎技術等優先考慮;
4、熟悉js逆向,混淆原理,js語法樹,客戶端常用簽名算法等。
5、具備web挖掘等搜索引擎相關知識,有豐富的網絡爬蟲、網頁去重、網頁信息抽取的經驗,
6、掌握網頁抓取原理及技術,包括基于Cookie的登錄管理,基于headless的采集,熟悉正則表達式、XPath、Jsoup等網頁信息抽取技術。
7、熟悉Linux平臺開發、常用操作及命令,良好的編碼習慣,有獨立思考的能力,善于解決問題。
8、具備較強的團隊協作精神,工作責任心強,良好的溝通、理解和執行能力。