1、負責數(shù)據(jù)清洗、轉(zhuǎn)化等具體工作:
負責基于hadoop/spark生態(tài)系統(tǒng)、億級別數(shù)據(jù)的全文檢索,搜索引擎的產(chǎn)品研發(fā);
基于海量用戶行為數(shù)據(jù)和其他數(shù)據(jù),分析和研究數(shù)據(jù)與實際業(yè)務的關(guān)聯(lián)關(guān)系,并與實際業(yè)務應用相結(jié)合開發(fā);
負責大數(shù)據(jù)分析需求設(shè)計和開發(fā),承擔數(shù)據(jù)抽取、清洗、轉(zhuǎn)化等數(shù)據(jù)處理程序開發(fā);
2、負責建構(gòu)公司數(shù)據(jù)平臺并落實維護與管理工作:
負責落實大數(shù)據(jù)平臺各類數(shù)據(jù)業(yè)務抽象及模型化工作;
負責組織或落實大數(shù)據(jù)管理平臺的開發(fā)及維護;
負責大數(shù)據(jù)平臺數(shù)據(jù)及相關(guān)的應用開發(fā),調(diào)優(yōu)及維護;
3、其他支持工作
制定公司數(shù)據(jù)管理規(guī)范,參與制定技術(shù)標準,編寫相應的技術(shù)文檔;
為項目相關(guān)開發(fā)人員提供大數(shù)據(jù)技術(shù)指導及解決大數(shù)據(jù)平臺應用中遇到的技術(shù)難題;
負責對各部門的技術(shù)團隊進行技術(shù)指導和培訓,研究并推廣數(shù)據(jù)應用新技術(shù);
任職資格:
本科及以上,計算機科學、軟件工程等專業(yè);
2年以上大數(shù)據(jù)管理、大數(shù)據(jù)應用開發(fā)經(jīng)驗;
具備Java、Python、Scala其中兩種語言的開發(fā)經(jīng)驗;
了解泛Hadoop大數(shù)據(jù)生態(tài)圈,熟悉HDFS/Hive/Flink/Hbase/Spark/Kafka其中兩種以上技術(shù),并有實際的項目開發(fā)經(jīng)驗,有相關(guān)源碼研究者優(yōu)先;
具備ETL開發(fā)與運維能力,有Flume、kettle經(jīng)驗優(yōu)先;
熟悉大數(shù)據(jù)平臺的搭建過程,熟悉數(shù)據(jù)處理流程,有TB級以上數(shù)據(jù)處理經(jīng)驗優(yōu)先,有實時數(shù)據(jù)處理經(jīng)驗者優(yōu)先;
熟悉離線和實時數(shù)據(jù)處理流程,熟練使用Spark,F(xiàn)link處理TB級數(shù)據(jù)優(yōu)先;
熟悉Linux系統(tǒng)環(huán)境,有shell等腳本編寫經(jīng)驗,熟悉Mysql、PostgreSql、Oracle等常用關(guān)系數(shù)據(jù)庫,熟練編寫SQL語句;
熟悉Yarn,Kubernetes,Azkaban等資源調(diào)度框架者優(yōu)先;
熟悉Datax的二次開發(fā),并有實際開發(fā)經(jīng)驗優(yōu)先