崗位職責:
1.負責設計并實施分布式數據平臺架構,優化數據存儲、處理和分析流程。參與大數據平臺產品的規劃、設計、開發和迭代,提升平臺的穩定性、可擴展性和易用性。
2.基于Hadoop、Spark、Flink等大數據處理框架,設計并實現高效的海量數據模型,確保數據的高效存儲與訪問。負責數據開發流程,包括數據清洗、轉換、加載及數據治理工作,以滿足業務對數據的高并發訪問需求。
3.利用開源框架進行大數據的采集工作,確保數據的完整性、準確性和及時性。進行深度數據分析,挖掘數據價值,為業務決策提供數據支持。整理分析結果,形成清晰、易于理解的報告或可視化展示。
4.針對大數據處理過程中的性能瓶頸,進行調優和故障排查。利用Hadoop、Spark、Flink等技術的特性,優化資源配置和作業調度,提高數據處理效率。
5.關注大數據領域的新技術、新趨勢,探索其在業務中的應用可能性,推動技術升級和創新。
任職要求:
1.擁有5年或以上大數據開發經驗,其中至少3年專注于大數據架構設計與實現。具備扎實的大數據理論基礎和實踐經驗,能夠獨立完成復雜的大數據項目。
2.具備豐富的大數據架構設計經驗,能夠根據業務需求設計高可用、可擴展的大數據平臺架構。熟悉分布式系統原理,能夠設計并實施分布式數據存儲和處理方案。能夠評估新技術在大數據平臺上的應用潛力,并進行技術選型與集成。
3.熟練掌握Hadoop、Spark、Flink等大數據核心技術,能夠針對不同量級的數據量進行配置調優和組件維護。熟悉Hbase、Hdfs、MapReduce、Yarn、Zookeeper、Hive、Kafka等大數據生態系統中的關鍵組件,能夠閱讀并理解源碼,解決復雜問題。了解并能應用NoSQL數據庫(如MongoDB、Cassandra等)以及實時數據流處理技術(如Storm、Samza等)。
4.具備豐富的海量數據性能處理經驗,能夠基于Hive和MySQL進行SQL優化,提升查詢效率。熟悉數據分區、索引、緩存等策略,能夠設計并實施有效的數據預處理和存儲方案,降低數據處理成本。能夠快速定位并解決大數據處理過程中的性能瓶頸和故障問題。
5.熟悉數據倉庫建模方法,能夠設計合理的數據模型以滿足業務需求。具備數據質量與數據治理經驗,了解數據生命周期管理、數據安全管理等相關知識。能夠制定并執行數據治理策略,確保數據的準確性、完整性和一致性。
6.熟練使用Java核心框架,如Spring Cloud、Spring Boot等,能夠編寫高效、可維護的代碼。了解Python、Scala等大數據相關編程語言,能夠根據需要選擇最合適的編程語言進行開發。
7.具備良好的溝通表達能力和跨團隊協作能力,能夠與團隊成員、業務方有效溝通,協同推進項目進展。
8.對新技術保持好奇心,愿意不斷學習新知識,探索新技術在大數據領域的應用。具備創新思維,能夠提出并推動技術改進和優化方案,持續提升大數據平臺的性能和穩定性。