崗位職責:
1、負責公司數據源抓取需求,滿足公司對多源數據采集要求;
2、實現大規模數據的抓取、抽取,去重、分類,垃圾過濾,質量識別、解析入庫等工作;
3、能獨立解決實際數據挖掘過程碰到的各類問題 。
任職要求:
1、本科以上學歷,2年以上爬蟲開發相關經驗,熟練使用Python進行數據爬取;
2、 熟練使用正則表達式、css path、xpath等,能夠從結構化的和非結構化的數據中獲取信息;
3、 熟悉各種抓取技術,包括代理、PhantomJSselenium、驗證碼處理;
4、精通一種開源爬框架,如scrapy、webmagic、nutch、heritrix等;
5、熟悉各種反爬蟲技術及其應對措施,有分布式爬蟲架構經驗優先;
6、具有良好的團隊協作精神,思維清晰敏捷,邏輯分析能力強;
7、會開車,能接受短期出差。
職位福利:定期體檢、五險一金、員工旅游、年終分紅