職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
職位描述:
崗位職責:
1、負責網絡爬蟲系統設計、開發。
2、完成帶領團隊完成數據采集爬取、解析提取、清洗入庫等數據生產工作。
3、研究網頁特點和規律,對網頁信息進行分類、抽取、數據清洗、存儲結構等研發和優化工作。
4、負責定向爬取視頻資源及相關聯信息。
5、負責領域知識的定向爬取、深度提取和挖掘。
6、對數據進行清洗、整理、去重及合并等工作。
任職資格:
1、大專以上學歷,3年以上python/java或c#開發經驗,熟悉一種開源爬蟲系統實現或作為主力參與過一個完整的爬蟲開發項目。
2、熟悉網頁爬取原理及技術,熟悉深度抓取、動態網頁抓取技術、熟悉請求偽裝,模擬登陸,代理應用,爬蟲和反爬技術。
3、精通正則表達式、javascript、json、http協議、html,善于從各種結構化和非結構化數據中抽取有用的信息。
4、熟練多線程技術、網絡編程技術等相關優勢經驗者優先。
5、熟悉hadoop、hbase、zookeeper、spark、storm、solr、hive、kafka、redis、mongodb等相關技術者優先;具有驗證碼破解經驗者優先。
崗位職責:
1、負責網絡爬蟲系統設計、開發。
2、完成帶領團隊完成數據采集爬取、解析提取、清洗入庫等數據生產工作。
3、研究網頁特點和規律,對網頁信息進行分類、抽取、數據清洗、存儲結構等研發和優化工作。
4、負責定向爬取視頻資源及相關聯信息。
5、負責領域知識的定向爬取、深度提取和挖掘。
6、對數據進行清洗、整理、去重及合并等工作。
任職資格:
1、大專以上學歷,3年以上python/java或c#開發經驗,熟悉一種開源爬蟲系統實現或作為主力參與過一個完整的爬蟲開發項目。
2、熟悉網頁爬取原理及技術,熟悉深度抓取、動態網頁抓取技術、熟悉請求偽裝,模擬登陸,代理應用,爬蟲和反爬技術。
3、精通正則表達式、javascript、json、http協議、html,善于從各種結構化和非結構化數據中抽取有用的信息。
4、熟練多線程技術、網絡編程技術等相關優勢經驗者優先。
5、熟悉hadoop、hbase、zookeeper、spark、storm、solr、hive、kafka、redis、mongodb等相關技術者優先;具有驗證碼破解經驗者優先。
工作地點
地址:深圳南山區深圳


職位發布者
HR
深圳市匯星數字技術有限公司

-
通信/電信/網絡設備/增值服務
-
51-99人
-
公司性質未知
-
深圳市南山區高新科技園北區朗山路16號華瀚創新園d座503室