1、大數(shù)據(jù)平臺(tái)
目前很火,數(shù)據(jù)源頭,各種炫酷新技術(shù),搭建hadoop、Hive、Spark、Kylin、Druid、Beam~,前提是你要懂Java,很多平臺(tái)都是用Java開發(fā)的。
目前很多企業(yè)都把數(shù)據(jù)采集下來了,對(duì)于傳統(tǒng)的業(yè)務(wù)數(shù)據(jù),用傳統(tǒng)的數(shù)據(jù)是完全夠用的,可是對(duì)于用戶行為和點(diǎn)擊行為這些數(shù)據(jù)或者很多非結(jié)構(gòu)化的數(shù)據(jù),文本、圖像和文本類的,由于數(shù)據(jù)量太大,很多公司都不知道怎么進(jìn)行存儲(chǔ)。
這里面要解決的是實(shí)時(shí)、近實(shí)時(shí)和離線的大數(shù)據(jù)框架如何搭建,各數(shù)據(jù)流之間如何耦合和解耦,如何進(jìn)行容災(zāi)、平臺(tái)穩(wěn)定、可用是需要重點(diǎn)考慮的。
大數(shù)據(jù)
我的感覺是:最近兩三年中,這塊人才還是很稀缺的,因?yàn)榇髷?shù)據(jù)概念炒作的這么厲害,很多企業(yè)都被忽悠說,我們也來開始進(jìn)入大數(shù)據(jù)行業(yè)吧。進(jìn)入的前提之一就是需要把數(shù)據(jù)存儲(chǔ)下來,特別是很多用戶行為方面的數(shù)據(jù),對(duì)于業(yè)務(wù)的提升比較明顯的,如果你能很好的刻畫用戶,那么對(duì)你的產(chǎn)品設(shè)計(jì)、市場營銷、開發(fā)市場都是有幫助的,F(xiàn)階段,很多公司都要做第一步:存儲(chǔ)更多的數(shù)據(jù)。這也是這塊人員流動(dòng)性比較高的原因,都被高薪挖走了。
和傳統(tǒng)的SQL不同的是,針對(duì)大數(shù)據(jù)量的非結(jié)構(gòu)式數(shù)據(jù),我們所想的就是: 用最廉價(jià)的成本存儲(chǔ)數(shù)據(jù)同時(shí)能夠達(dá)到容災(zāi)、擴(kuò)展性高、高性能、跨域,從目前來看,分布式已經(jīng)被證明是個(gè)很好的一個(gè)方式。
另外,云端會(huì)是個(gè)很好的方向,不是每個(gè)公司都養(yǎng)得起這么多這么貴的大數(shù)據(jù)平臺(tái)開發(fā)人員和運(yùn)維人員OPS,從事這個(gè)行業(yè)的我們要有很好的危機(jī)意識(shí),及時(shí)貢獻(xiàn)出自己的價(jià)值,積極主動(dòng)的學(xué)習(xí)新技術(shù)、否則就可能被淘汰了。
此外,花點(diǎn)錢把數(shù)據(jù)托管給云服務(wù)提供商是對(duì)于創(chuàng)業(yè)公司或者一些傳統(tǒng)的企業(yè)來說是個(gè)很好的思路,這樣能夠最快速的確定數(shù)據(jù)對(duì)你的價(jià)值是什么,而不用采購這么多的服務(wù)器、雇傭這么多的運(yùn)維人員和網(wǎng)站開發(fā)人員。
說了以上這些,主要是想給未來會(huì)從事這塊的人或者想存儲(chǔ)數(shù)據(jù)的公司一點(diǎn)方向。我自己不做這塊,體會(huì)不深,大家看看就行。
這塊工作最被吐槽的一點(diǎn)就是:Hive速度好慢,SQL查詢好慢,集群怎么又掛掉了,hadoop版本升級(jí)后,怎么數(shù)據(jù)跑出來不對(duì)了等等。
因此,在這個(gè)領(lǐng)域內(nèi)工作,需要有強(qiáng)大的攻堅(jiān)能力,并且還需要有快速定位和解決bug的能力,因?yàn)橛泻芏喙ぞ叨际情_源的。 因?yàn)槭情_源的,所以你們懂得,各種坑爹,甚至出現(xiàn)無法向下兼容的情況,所以需要強(qiáng)大的Java開發(fā)能力。
如果想在這塊做的很好,還需要有整個(gè)系統(tǒng)架構(gòu)的設(shè)計(jì)能力、比較的強(qiáng)的抗壓能力和解決問題的能力、資源收集的能力,可以打入開源社區(qū),這樣就可以隨時(shí)follow最新的潮流和技術(shù)。
2、數(shù)據(jù)倉庫-ETL
確實(shí)做倉庫的人很辛苦,單單Oncall就會(huì)讓人望而卻步。有很多數(shù)據(jù)庫工程師,晚上睡覺的時(shí)候經(jīng)常被Oncall電話吵醒,因?yàn)閿?shù)據(jù)流程出問題,需要第一時(shí)間去排查,是哪個(gè)數(shù)據(jù)源出問題,并且要立即解決,否則整個(gè)數(shù)據(jù)流程都會(huì)受到影響。
如果數(shù)據(jù)流程受到了影響,你就可能會(huì)被大領(lǐng)導(dǎo)一言不合叫到辦公室說:我要的數(shù)據(jù)怎么還沒有準(zhǔn)備好,我的業(yè)務(wù)報(bào)表今天怎么沒有發(fā)出來。
通過上面這個(gè)情景,我們可以知道:這是個(gè)很重要的崗位,因?yàn)閿?shù)據(jù)流程很重要,決定了數(shù)據(jù)從源頭雜亂無章的狀況,通過ETL之后變成了整齊的數(shù)據(jù),這些整齊一致性的數(shù)據(jù)可以讓你很方便地把各業(yè)務(wù)的統(tǒng)計(jì)結(jié)果計(jì)算出來,并且能夠統(tǒng)一口徑。要不然就會(huì)變成有幾個(gè)部門,就有幾種統(tǒng)計(jì)結(jié)果,到時(shí)候A部門說業(yè)務(wù)增長了5%,B部門說業(yè)務(wù)漲了10%,OMG,到底信誰。
至少在以下幾點(diǎn)上,我覺得數(shù)據(jù)倉庫人員應(yīng)該要做好:
a、數(shù)據(jù)字典的完整性,用的人都希望能夠清晰的知道這個(gè)字段的邏輯是什么。字段要保持很好的一致性,不要同樣一個(gè)字段在不同表里有不同的定義。
b、核心流程的穩(wěn)定性,不要讓每天訂單主表能夠使用的時(shí)間很不穩(wěn)定,有的時(shí)候很早,有的時(shí)候要中午才出來,如果不穩(wěn)定就會(huì)導(dǎo)致使用數(shù)據(jù)的人對(duì)你很沒有信心。
c、倉庫版本迭代不要過于頻繁,要保持不同版本之間的兼容性。不要做好了倉庫1.0,很快就把原來的推倒重來,變成了2.0。在數(shù)據(jù)倉庫中需要考慮到延續(xù)性,主表的變動(dòng)不要太頻繁,否則使用的人會(huì)非常痛苦,好不容易才用習(xí)慣了1.0的表結(jié)構(gòu),沒辦法這么快進(jìn)行切換。簡單地說,要能向下兼容。
d、保持各業(yè)務(wù)邏輯的統(tǒng)一性,不要出現(xiàn)同樣的業(yè)務(wù)邏輯,同一個(gè)組別的人統(tǒng)計(jì)出來的結(jié)果不同。原因在于共同的邏輯沒有落地成通用的東西,所以導(dǎo)致每個(gè)人寫法不同。這點(diǎn)其實(shí)需要特別注意。
針對(duì)以上,這個(gè)崗位的技能要求是:不要成為僅僅會(huì)寫SQL的人,現(xiàn)在工具都很發(fā)達(dá),如果你的技能很單一的話,那么可替代指數(shù)是非常高的,并且你自身也沒有什么成就感。這里并不是說會(huì)寫SQL的人很low,只是說應(yīng)該多學(xué)一些技能,否則會(huì)很危險(xiǎn)。
倉庫人員應(yīng)該要常常思考,如何進(jìn)行架構(gòu)設(shè)計(jì)是最合理的,你要考慮是否需要字段冗余、行存儲(chǔ)還是列存儲(chǔ)、字段如何擴(kuò)展最有效,熱數(shù)據(jù)和冷數(shù)據(jù)如何拆分等,所以需要有架構(gòu)思維。
技能上,除了SQL熟練之外,還需要知道如何寫Transform,MapReduce,因?yàn)橛泻芏鄻I(yè)務(wù)邏輯用SQL實(shí)現(xiàn)起來非常復(fù)雜,但是如果你會(huì)其他腳本語言,那么就能給你提供便利,讓你的效率提升很多。 另外好的倉庫人員需要寫Java或者Scala,通過寫UDTF或者UDAF來提升你的效率是很有必要的。
數(shù)據(jù)倉庫人員也應(yīng)該常?紤]自動(dòng)化和工具化方面的事情,需要很好的工具或者模塊的抽象能力,動(dòng)手實(shí)現(xiàn)自動(dòng)化的工具來提高整個(gè)組織效能 。針對(duì)經(jīng)常碰到的數(shù)據(jù)傾斜問題,需要很快定位問題并進(jìn)行優(yōu)化。
說完了數(shù)據(jù)存儲(chǔ)這塊,接下來是數(shù)據(jù)應(yīng)用的幾個(gè)關(guān)鍵職位,在此之前,我想說數(shù)據(jù)應(yīng)用的一個(gè)最關(guān)鍵的前提是: 數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量、數(shù)據(jù)質(zhì)量!! 在每次闡述你的觀點(diǎn)、分析結(jié)論或者用算法的時(shí)候,都需要先檢查,源頭數(shù)據(jù)正確性,否則任何結(jié)論都是偽命題。
3、數(shù)據(jù)可視化
這是個(gè)很炫的工作,最好是能懂點(diǎn)前端,比如js。數(shù)據(jù)可視化人員需要有很好的分析思維,不能為了炫技而忽視對(duì)業(yè)務(wù)的幫助程度。因?yàn)槲覍?duì)這個(gè)崗位客串的不多,所以沒有特別深入的感悟,不過我覺得這個(gè)崗位需要有分析的能力,才能把可視化做好。
另外一方面來說,做數(shù)據(jù)應(yīng)用的人都應(yīng)該懂點(diǎn)數(shù)據(jù)可視化,要知道觀點(diǎn)表達(dá)的素材順序是:圖片>表格>文字,一個(gè)能夠用圖片來闡述的機(jī)會(huì)千萬別用文字來描述,因?yàn)檫@樣更易于讓別人理解。要知道,給大領(lǐng)導(dǎo)講解事情的時(shí)候,需要把大領(lǐng)導(dǎo)設(shè)想成是個(gè)“數(shù)據(jù)白癡”,這樣才能把一件事情說的比較生動(dòng)。
4、數(shù)據(jù)分析師
現(xiàn)在對(duì)數(shù)據(jù)分析的需求是很大的,因?yàn)榇蠹叶枷胫f:數(shù)據(jù)有了,但是能做些什么呢?這就需要有數(shù)據(jù)分析師,對(duì)數(shù)據(jù)進(jìn)行分析和挖掘,然后做數(shù)據(jù)應(yīng)用。
對(duì)數(shù)據(jù)分析師吐槽最多的是:你分析出來的不就是正常的業(yè)務(wù)邏輯嗎,還需要你分析什么?或者是你分析的結(jié)論不對(duì),跟我們的業(yè)務(wù)邏輯不符合。特別是:ABTest的結(jié)果和當(dāng)初設(shè)定的預(yù)期不相符合的時(shí)候,分析師會(huì)常常被拉過去說:分析一下,為什么我的AB實(shí)驗(yàn)結(jié)果不顯著,里面肯定有原因的。
很多時(shí)候,寶寶的心里苦啊,你說這個(gè)轉(zhuǎn)化率下降了,從數(shù)據(jù)上可以看出哪個(gè)細(xì)分渠道下降了,至于為什么客戶不下單,我們得去用戶去,很多時(shí)候,數(shù)據(jù)上也體現(xiàn)不出來為什么,只能告訴你現(xiàn)狀是什么。
如果你一直在寫分析報(bào)告,給結(jié)論中,持續(xù)周而復(fù)始,沒有直接在業(yè)務(wù)中體現(xiàn)成績的時(shí)候,數(shù)據(jù)分析師們?cè)撔研蚜,你該想想這個(gè)是你要的崗位嗎?
對(duì)于數(shù)據(jù)分析師的定位:個(gè)人認(rèn)為,成為優(yōu)秀的大數(shù)據(jù)分析師是非常難的,現(xiàn)在市面上也沒有多少優(yōu)秀的分析師。 數(shù)據(jù)分析師的技能要求,除了會(huì)數(shù)據(jù)分析、提煉結(jié)論、洞察數(shù)據(jù)背后的原因之外,還需要了解業(yè)務(wù),懂算法。 只有這樣,當(dāng)面對(duì)一個(gè)業(yè)務(wù)問題時(shí),數(shù)據(jù)分析師們才可以針對(duì)問題抽絲剝繭,層層遞進(jìn)去解決問題,再根據(jù)定位的問題進(jìn)行策略的應(yīng)對(duì),比如是先做上策略進(jìn)行測試還是應(yīng)用算法進(jìn)行優(yōu)化,用算法用在哪個(gè)場景上,能不能用算法來解決問題。
一個(gè)優(yōu)秀的數(shù)據(jù)分析師,是個(gè)精通業(yè)務(wù)和算法的全能數(shù)據(jù)科學(xué)家,不是那個(gè)只會(huì)聽從業(yè)務(wù)的需求而進(jìn)行拉數(shù)據(jù)、做報(bào)表、只做分析的閑雜人等。 我們都說分析要給出結(jié)論,優(yōu)秀分析師的結(jié)論就是一個(gè)能解決問題的一攬子策略和應(yīng)對(duì)措施,同時(shí)很多需求是分析師去主動(dòng)發(fā)現(xiàn)并通過數(shù)據(jù)來挖掘出來的。
從上述描述中,可以看到對(duì)數(shù)據(jù)分析師的要求是:會(huì)寫sql拉數(shù)據(jù),精通業(yè)務(wù)、會(huì)數(shù)據(jù)洞察、精通算法,主動(dòng)性強(qiáng),要求還是很高的。
如果你一直只是忙于應(yīng)付日常分析需求,熱衷于寫華麗的報(bào)告,那么你要記得,你很危險(xiǎn),因?yàn)闀?huì)有一堆人在那里質(zhì)疑你存在的價(jià)值,特別是小公司。因?yàn)閿?shù)據(jù)人員的薪資是個(gè)不小的支出。
大部分不落地的分析都是偽分析,有一些探索性的可行性研究可以不考慮落地,但是其他的特定業(yè)務(wù)需求的分析都需要考慮落地,然后通過實(shí)踐來反推你的作用,如此反復(fù),才能慢慢的給你價(jià)值的肯定,同時(shí)提升你的分析技能,也只有這樣才能證明你作為分析師、數(shù)據(jù)落地者的價(jià)值。
5、數(shù)據(jù)挖掘/算法
這塊的話,經(jīng)過這三年的摸爬滾打,感觸蠻多的。體會(huì)比較深的吐槽主要有以下幾點(diǎn):
一個(gè)規(guī)則搞定了,還用什么算法。
你的準(zhǔn)確率怎么這么低?!
你的準(zhǔn)確率可以到99%嗎?
你的推薦有價(jià)值嗎?你不推薦客人也會(huì)下那個(gè)產(chǎn)品的訂單的。
幫我做個(gè)大數(shù)據(jù)預(yù)測他想要什么?
很多時(shí)候,不同的場景對(duì)準(zhǔn)確率的要求是不同的,所以在一定合理的場景下和業(yè)務(wù)進(jìn)行據(jù)理力爭是必要,不要害怕讓業(yè)務(wù)吐槽,更多的時(shí)候管理好他們的預(yù)期。
有些場景下,推薦的價(jià)值在于『長期復(fù)購率』,所以不要每次都盯著ABTest的轉(zhuǎn)化率來說事,讓客人的費(fèi)力度降低也是很有前途和前景的。一個(gè)智能的產(chǎn)品會(huì)讓客人用起來愛不釋手,雖然在這一次的轉(zhuǎn)化中沒有明顯的差別,但是觀察長期復(fù)購率才能體現(xiàn)價(jià)值。特別是要區(qū)分:高頻和低頻產(chǎn)品。頻次比較低的產(chǎn)品就特別難體現(xiàn)出短期價(jià)值。
對(duì)于這個(gè)崗位的技能要求來說,沒有要求你一定要從零開始實(shí)現(xiàn)所有的算法,現(xiàn)在有很多現(xiàn)成的算法包進(jìn)行調(diào)用。最基本的要求是,你要知道每個(gè)場景會(huì)用到哪個(gè)算法,比如分類場景,常用的分類算法就有LR/RF/Xgboost/ET等等,此外,你還要知道每個(gè)算法的有效優(yōu)化參數(shù)是什么、模型效果不好的時(shí)候怎么優(yōu)化。還需要有算法的實(shí)現(xiàn)能力,語言方面可以用Scala/python/R/Java等。我們常說:工具不重要,重要的是你玩工具,不是工具玩你。
另外針對(duì)有監(jiān)督式學(xué)習(xí)算法,算法工程師最好有很好的業(yè)務(wù)sense,這樣在feature設(shè)計(jì)的時(shí)候才能更有針對(duì)性,設(shè)計(jì)的feature才有可能有很好的先驗(yàn)性。
6、深度學(xué)習(xí)(NLP,CNN,語音識(shí)別)
這塊我沒具體商用過,只是動(dòng)手實(shí)踐過。個(gè)人感覺商業(yè)化是重點(diǎn)吧,特別是大家都在觀望說你的chatbot很有用啊,可是siri做了這么久,最后反響也一般。
現(xiàn)在客服機(jī)器人又很火,大家又在一通吐槽說,這個(gè)上下文理解的太差了,機(jī)器人的語義識(shí)別做的怎么這么差。誰做誰知道,對(duì)于中文的語義識(shí)別,難度比國外的難多了,因?yàn)橹形牡囊环N否定說法有太多種變體,你不知道我們會(huì)說哪種。
另外,常常有人吐槽說,你這個(gè)CNN這么復(fù)雜,我線上需要滿足100ms內(nèi)返回,搞的這么復(fù)雜,實(shí)時(shí)調(diào)用怎么整,肯定來不及了,最后只能考慮offline預(yù)測了。常常說這話的人,是不會(huì)自己寫底層代碼的,很多時(shí)候我覺得:不是你沒有解決問題的辦法,而是你沒有去思考怎么解決問題,心智決定了你的產(chǎn)出。
整體來說,這塊對(duì)個(gè)人的綜合素質(zhì)要求是很高的。如果你只是想簡單利用現(xiàn)成的Model,提取中間層的特征,然后再套用其他的機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測的話,倒也能很好的解決一些現(xiàn)實(shí)中的公司應(yīng)用,比如yelp的圖片分類。
不過,嚴(yán)格來說,這個(gè)不算是做深度學(xué)習(xí)的人,因?yàn)檎嬲鍰L的人,是需要自己動(dòng)手建模型,調(diào)參數(shù),改symbol的,所以他們的編程能力是很強(qiáng)的,這點(diǎn)上,我一直都高山仰止。特別是一些創(chuàng)業(yè)公司,對(duì)于這個(gè)崗位的編程能力要求很高。如果你面試創(chuàng)業(yè)公司后沒有下文了那就表示:你很優(yōu)秀,但是不一定適合我們公司,因?yàn)槲覀円业木幊棠芰軓?qiáng)的人。
這塊我不專業(yè),所以就點(diǎn)到為止,不說太多。個(gè)人認(rèn)為,在這塊上需要有比較強(qiáng)的算法改造和優(yōu)化能力,盡量的提高算法預(yù)測的速度,同時(shí)不斷的提高算法的外延性提高精度,目前整個(gè)行業(yè)也都是朝著好的方向在發(fā)展。如果有很多人看到這塊行業(yè)開出來的高工資,記得和招聘上的要求核對(duì)一下,自己哪塊技能需要補(bǔ)充。這樣你才能成為人中之鳳。
對(duì)于未來,一片光明,對(duì)于未來,甚是期待,對(duì)于未來,一切可能。
總結(jié)
在大數(shù)據(jù)時(shí)代,核心就是:如何用數(shù)據(jù)創(chuàng)造價(jià)值,如果你沒有用數(shù)據(jù)創(chuàng)造價(jià)值的能力,那么就只能等著被數(shù)據(jù)淹沒,被數(shù)據(jù)拍死在職場上,早早到達(dá)職業(yè)的天花板。
體現(xiàn)數(shù)據(jù)價(jià)值的層面上,越往數(shù)據(jù)應(yīng)用層靠攏,對(duì)數(shù)據(jù)產(chǎn)生價(jià)值的要求就越高,從事這塊領(lǐng)域的人要常常自省是否有好的商業(yè)Sense,畢竟在工業(yè)界,沒人關(guān)心你是否比傳統(tǒng)的baseline提高了一個(gè)百分點(diǎn),他們關(guān)心的是你提高了一個(gè)百分點(diǎn)之后,對(duì)公司的價(jià)值是什么。
而越往底層那塊,倒也沒有強(qiáng)制要求和業(yè)績綁定在一起,更多的是從流程上進(jìn)行約定,對(duì)于這塊的價(jià)值體現(xiàn),主要從技術(shù)層面上的創(chuàng)新為主,你如果解決了現(xiàn)存架構(gòu)的問題,那么你就可以成為一個(gè)大牛,所以多學(xué)學(xué)編程吧,別太約束自己,故步自封。