工作職責(zé):
1.?負(fù)責(zé)設(shè)計(jì)和開(kāi)發(fā)分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng),進(jìn)行多平臺(tái)信息的抓取和分析工作;
2.?負(fù)責(zé)網(wǎng)頁(yè)信息和APP數(shù)據(jù)抽取、清洗、消重等工作,提升平臺(tái)的抓取效率;
3.?負(fù)責(zé)驗(yàn)證碼、反爬、api、js注入破解,提升平臺(tái)的數(shù)據(jù)采集量;
4.?參與爬蟲(chóng)核心算法和策略優(yōu)化,熟悉采集系統(tǒng)的調(diào)度策略;
5.?負(fù)責(zé)數(shù)據(jù)可視化實(shí)時(shí)監(jiān)控爬蟲(chóng)的進(jìn)度和預(yù)警反饋。
任職要求:
1.???萍耙陨蠈W(xué)歷;
2.?3年及以上相關(guān)工作經(jīng)驗(yàn),有扎實(shí)的算法和數(shù)據(jù)結(jié)構(gòu)能力;
3.?熟悉?Linux開(kāi)發(fā)環(huán)境,熟悉后端Java,scala?編程語(yǔ)言;
4.?熟悉kafka、zookeeper、java多線程以及定時(shí)任務(wù)等技術(shù);
5.?熟悉mysql數(shù)據(jù)庫(kù),對(duì)于有sql優(yōu)化經(jīng)驗(yàn)者優(yōu)先;
6.?掌握rocksDB存儲(chǔ)引擎;
7.?熟悉爬蟲(chóng)原理,熟悉常見(jiàn)的反爬技術(shù),有爬蟲(chóng)相關(guān)項(xiàng)目開(kāi)發(fā)經(jīng)驗(yàn)者優(yōu)先;
8.?對(duì)于項(xiàng)目有分布式項(xiàng)目經(jīng)驗(yàn)開(kāi)發(fā)者優(yōu)先;
9.?掌握HTTP協(xié)議,熟練使用selenium、正則表達(dá)式、XPATH、CSS選擇器等爬蟲(chóng)開(kāi)發(fā)常用技能;
10.?熟練使用http代理工具和抓包工具,如Fiddler等;
11.?熟悉jetty;
12.?熟悉git、maven、sbt等工具。