從Hadoop看大數(shù)據(jù)市場(chǎng):可發(fā)展空間巨大
點(diǎn)擊:1035
A+ A-
所屬頻道:新聞中心
現(xiàn)今科技界紅到發(fā)紫的大數(shù)據(jù)革命的代表性技術(shù)就是Hadoop(注:一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu))。Hadoop是一個(gè)由一系列不同的技術(shù)組成的生態(tài)系統(tǒng)。做Hadoop相關(guān)產(chǎn)品的公司有很多,其中也有很多不一樣的選擇和變種,比如Cloudera,Hortonworks,亞馬遜EMR,Storm和Spark都是其中的一部分。
用大數(shù)據(jù)分析大數(shù)據(jù)市場(chǎng)
Hadoop作為一個(gè)整體來(lái)說(shuō)仍然是采用量最多,討論最火爆的大數(shù)據(jù)技術(shù)。
然而通過(guò)我們的數(shù)據(jù)分析發(fā)現(xiàn)在世界上前50萬(wàn)個(gè)公司中,只有很少的一部分真正的使用了Hadoop技術(shù)。有人會(huì)說(shuō)我們?nèi)匀惶幵谶@個(gè)技術(shù)被大眾所接受最初始的階段。我們假設(shè)用Hadoop的實(shí)用情況來(lái)代表整個(gè)大數(shù)據(jù)的發(fā)展現(xiàn)狀,通過(guò)數(shù)據(jù)分析我們發(fā)現(xiàn)了一些很有意思的市場(chǎng)現(xiàn)狀。
當(dāng)剛看到這些原始數(shù)據(jù)的時(shí)候,我們會(huì)發(fā)現(xiàn)大數(shù)據(jù)市場(chǎng)還有非常大的潛在空間。但是現(xiàn)在真正的使用者非常少,而這方面的公司又多如牛毛,意味著大數(shù)據(jù)科技公司中會(huì)被并購(gòu)。簡(jiǎn)單地講,大數(shù)據(jù)市場(chǎng)會(huì)慢慢的變得更加成熟。
現(xiàn)況一覽
我們分析了幾十億條網(wǎng)上公布的信息,包括新聞稿、論壇帖子、招聘啟事、微博和專(zhuān)利等等。我們用這些大量的文檔進(jìn)行機(jī)器學(xué)習(xí),從而得到一些關(guān)于大公司都技術(shù)采用情況的非常精確的信息。
我們想通過(guò)分析了解什么樣的趨勢(shì)呢?舉個(gè)例子,通過(guò)統(tǒng)計(jì)公司員工的技能就可以了解他們所在的公司這正在使用什么樣的技術(shù);有哪些公司在找會(huì)Spark的人;哪些公司在招數(shù)據(jù)科學(xué)家,招多少個(gè)。如果把關(guān)注點(diǎn)放在Hadoop上我們可以找到一個(gè)公司或者組織的人有沒(méi)有在討論Hadoop相關(guān)問(wèn)題,有沒(méi)有需要Hadoop的職位正在招聘,都有誰(shuí)去了當(dāng)?shù)仃P(guān)于Hadoop的興趣小組,還有網(wǎng)上誰(shuí)在問(wèn)關(guān)于Hadoop的技術(shù)問(wèn)題。我們甚至用了關(guān)于Hadoop的每一條微博,博客和展示稿。
總的來(lái)說(shuō),我們發(fā)現(xiàn)只有2680個(gè)公司在某種程度上使用Hadoop,在這些公司里面,1636個(gè)的技術(shù)采用成熟度是非常低的,這些人只是剛剛開(kāi)始嘗試新技術(shù),參加興趣小組和技術(shù)會(huì)議來(lái)學(xué)習(xí)大數(shù)據(jù)或者嘗試做一些入門(mén)探索性的項(xiàng)目。另外552個(gè)在更高的一個(gè)級(jí)別,他們已經(jīng)開(kāi)始在內(nèi)部比較小型的項(xiàng)目中用Hadoop(部門(mén)的項(xiàng)目或者公司本身就是一個(gè)初創(chuàng)公司)。只有492個(gè)是在進(jìn)階的技術(shù)狀態(tài),這些公司有一個(gè)比較大型的項(xiàng)目投入產(chǎn)品并且有員工對(duì)Hadoop有一定的經(jīng)驗(yàn)。
大公司更愛(ài)大數(shù)據(jù)
我們驚訝的發(fā)現(xiàn),大型公司(5000人以上)開(kāi)始使用大數(shù)據(jù)技術(shù)的速度要遠(yuǎn)遠(yuǎn)高于小型公司。一般人很可能會(huì)猜小型或者歷史比較短的公司會(huì)更愿意采用新技術(shù)。但是對(duì)于大數(shù)據(jù),現(xiàn)實(shí)情況正好相反。我們發(fā)現(xiàn)大型公司中有300個(gè)對(duì)于Hadoop非常重視已經(jīng)進(jìn)行了技術(shù)投資,而相對(duì)比之下只有300個(gè)5000人以下的公司是Hadoop用戶??紤]到中小公司的總數(shù)目是大公司的10倍,這也就是說(shuō)Hadoop在大公司市場(chǎng)的占有率是中小型公司市場(chǎng)的10倍。
大多數(shù)用Hadoop的公司自己就是高科技數(shù)據(jù)導(dǎo)向的公司。但是我們不知道為什么小公司遲遲沒(méi)有迎頭趕上。這是因?yàn)樗麄冑I(mǎi)不起大數(shù)據(jù)軟件支持嗎?還是因?yàn)樗麄冋?qǐng)不起高薪的數(shù)據(jù)科學(xué)家和工程師?還是他們根本就沒(méi)有太多的數(shù)據(jù)?
石油和醫(yī)藥行業(yè)落后 金融行業(yè)領(lǐng)先
油氣公司和醫(yī)藥公司一般來(lái)說(shuō)都有非常多的數(shù)據(jù)集,但是我們的分析表明他們并沒(méi)有很多在使用Hadoop。然而金融行業(yè)雖然傳統(tǒng)上并不是可以快速采用新技術(shù)的行業(yè),卻很快地使用了大數(shù)據(jù)技術(shù)。
這也許是因?yàn)榻鹑谛袠I(yè)受到了一些早期使用者(比如美國(guó)運(yùn)通公司)的影響?;蛘呤且?yàn)樗麄冎苯訌腎BM大型計(jì)算機(jī)飛躍到Hadoop,中間直接跳過(guò)了好幾代的技術(shù)更迭。甚至現(xiàn)在已經(jīng)出現(xiàn)了專(zhuān)門(mén)提供這種技術(shù)升級(jí)服務(wù)的創(chuàng)業(yè)公司(比如Paxata和Syncsort)。
實(shí)時(shí)分析也不能阻擋 Hadoop的腳步
令人不解的是,一些需要實(shí)時(shí)分析的行業(yè)更快的采用了Hadoop技術(shù)。這些行業(yè)包括零售行業(yè)、IT安全、電信和保險(xiǎn)。這個(gè)非常讓人困惑,因?yàn)镠adoop最開(kāi)始的基礎(chǔ)MapReduce(映射-歸納)模型采用的是批量處理,這種方法在實(shí)時(shí)數(shù)據(jù)分析和處理中非常低效。為了解決這個(gè)問(wèn)題,市場(chǎng)中已經(jīng)出現(xiàn)了一些實(shí)時(shí)處理Hadoop的公司(比如Datatorrent、VoltDB和SpliceMachine)。
未來(lái)展望
即使是那些準(zhǔn)備好了進(jìn)入Hadoop的公司也要面臨人才的缺失的問(wèn)題。在撰寫(xiě)文章的這天光美國(guó)就有1萬(wàn)6千個(gè)需要Hadoop經(jīng)驗(yàn)的崗位在招人。如果Hadoop市場(chǎng)走向成熟,那業(yè)界需要找到一個(gè)可以利用那些沒(méi)有Hadoop技術(shù)經(jīng)驗(yàn)人才的方法。那些了解SQL的人才數(shù)目要比懂Hadoop的多100倍。類(lèi)似SpliceMachne,Presto,IBM大數(shù)據(jù),甲骨文大數(shù)據(jù)SQL之類(lèi)(這些公司都提供用SQL來(lái)查詢大數(shù)據(jù)的方法)的解決方案將會(huì)因?yàn)橄嚓P(guān)人才的數(shù)量而更加有吸引力。
即便人才問(wèn)題可以得到解決,技術(shù)本身仍然存在著實(shí)用和維護(hù)成本非常昂貴的問(wèn)題。雖然使用了免費(fèi)開(kāi)源的Hadoop系統(tǒng),你仍然需要找到非常稀少開(kāi)價(jià)很高的系統(tǒng)管理員。另外雖然在備份,恢復(fù)和高使用性方面的解決方案越來(lái)越多,但是管理Hadoop系統(tǒng)仍然比SQL數(shù)據(jù)庫(kù)要復(fù)雜的多得多。
當(dāng)今的Hadoop市場(chǎng)可以說(shuō)是比較小的,并容不下這么多的創(chuàng)業(yè)公司在里面競(jìng)爭(zhēng)。我們的分析表明真正在為大數(shù)據(jù)買(mǎi)單的公司集中在少量的大型公司中,所以最后勝出的應(yīng)該會(huì)是那些在市場(chǎng)中已經(jīng)站穩(wěn)腳跟的技術(shù)。我們從最近Hortonworks在股市中的表現(xiàn)也可以看到這一點(diǎn)(注:目前股價(jià)$11,市值自上市以來(lái)已經(jīng)蒸發(fā)了一半還多)。
這會(huì)直接導(dǎo)致一些Hadoop公司被收購(gòu)或者合并。最后并購(gòu)的公司如果不僅可以支持最基本的MapReduce,還可以采用公有云定價(jià)模式,事務(wù),純內(nèi)存處理,實(shí)時(shí)分析和SQL等等,那么客戶可以不再為了有很多不同的一次性系統(tǒng)而煩惱。最終就像是以前的關(guān)系型數(shù)據(jù)庫(kù)公司那樣被應(yīng)用型公司所取代(比如甲骨文),這些公司直接提供一些大數(shù)據(jù)驅(qū)動(dòng)的解決方案,可以直接應(yīng)用在物聯(lián)網(wǎng)、客戶關(guān)系管理、供應(yīng)鏈甚至一些行業(yè)特定的應(yīng)用上,比如物流管理甚至金融欺詐檢測(cè)。
前路漫漫
如你所見(jiàn),大數(shù)據(jù)市場(chǎng)還有非常多增長(zhǎng)和改變的空間。我們的分析表明下面的幾個(gè)方面可以幫助這些增長(zhǎng)成為現(xiàn)實(shí)。首先Hadoop可以進(jìn)軍更多的垂直市場(chǎng)和中型公司,其次Hadoop方面人才的數(shù)量需要增長(zhǎng),然后通過(guò)改善分析系統(tǒng)可以讓更多已經(jīng)了解SQL的人更好地使用Hadoop工具。最后是并購(gòu)之后的公司如果可以轉(zhuǎn)型成為應(yīng)用為主體產(chǎn)品的公司應(yīng)該會(huì)是笑到最后的贏家。
(審核編輯: 智慧羽毛)
分享