大年夜數(shù)據(jù)是不是是大年夜忽悠?上馬大年夜數(shù)據(jù)需要預(yù)備啥?大年夜數(shù)據(jù)平臺(tái)如何選擇?大年夜數(shù)據(jù)安然若何包管?
大年夜數(shù)據(jù)火了起來,乃至在前不久召開的2013夏季達(dá)沃斯論壇上還專門進(jìn)行了一場(chǎng)關(guān)于“大年夜數(shù)據(jù)概念是不是被過度炒作”的辯論會(huì),其火熱程度可見一斑。
按照計(jì)世資訊2013年3月發(fā)布的中國大年夜數(shù)據(jù)市場(chǎng)查詢拜訪陳述顯示,相較2011年,2012年中國大年夜數(shù)據(jù)市場(chǎng)范圍增加52.4%,達(dá)到3.2億元。估計(jì)到2017年,中國大年夜數(shù)據(jù)市場(chǎng)的年增加率都將超越60%,到2017年,達(dá)到37.9億元的市場(chǎng)范圍,在經(jīng)濟(jì)、整體IT市場(chǎng)低迷的環(huán)境下,實(shí)現(xiàn)大年夜幅逆勢(shì)增加。
在日前由《計(jì)較機(jī)世界》報(bào)主辦的“大年夜數(shù)據(jù)期間的商業(yè)智能岑嶺論壇”上,來自IT廠商的代表、業(yè)內(nèi)專家、資深闡發(fā)師及用戶代表就大年夜數(shù)據(jù)熱點(diǎn)話題展開了狠惡的會(huì)商。
核心一:大年夜數(shù)據(jù)是不是是大年夜忽悠?
IT手藝的每次更新迭代都面對(duì)一樣的標(biāo)題問題,前兩年的云計(jì)較、此刻的大年夜數(shù)據(jù)無不如斯。實(shí)際上我們回過甚來看,所有的手藝和財(cái)產(chǎn)的成長(zhǎng)都有泡沫化的過程,包含互聯(lián)網(wǎng)、金融危機(jī)、云計(jì)較、大年夜數(shù)據(jù),城市有一個(gè)泡沫化的過程,而泡沫破滅的過程也恰是這項(xiàng)手藝落地的過程。
大年夜數(shù)據(jù)熱啟事是其可以產(chǎn)生更多的價(jià)值,而在當(dāng)前這個(gè)時(shí)候點(diǎn)熱,一方面是愈來愈多的人意想到了此中的價(jià)值,另外一方面則與手藝的成長(zhǎng)成熟密不成分。戴爾云計(jì)較及大年夜數(shù)據(jù)高級(jí)解決方案架構(gòu)師郝繼玖和EMC資深手藝參謀楊永波在這個(gè)標(biāo)題問題上所持的不雅點(diǎn)基底蘊(yùn)同,他們覺得其實(shí)不是之前沒有大年夜數(shù)據(jù),而是沒有能力措置。當(dāng)下這個(gè)時(shí)候點(diǎn)一方面是數(shù)據(jù)范圍確切愈來愈大年夜,而另外一方面計(jì)較能力也達(dá)到了必然的程度,當(dāng)這二者都具有的時(shí)辰,才催生了大年夜數(shù)據(jù)期間的到來。
作為用戶代表,IDG集體中國區(qū)副總裁、計(jì)世傳媒集體董事許偉明暗示認(rèn)同,他覺得主如果當(dāng)前IT系統(tǒng)的計(jì)較能力和成本都已降落到了可以承擔(dān)的程度,由此鞭策了大年夜數(shù)據(jù)的快速成長(zhǎng)。
作為大年夜數(shù)據(jù)范疇的專家,北京理工大年夜學(xué)計(jì)較機(jī)學(xué)院院長(zhǎng)助理、大年夜數(shù)據(jù)搜刮與發(fā)掘嘗試室主任張華平副傳授表達(dá)了他的觀點(diǎn)。他暗示,當(dāng)然當(dāng)前大年夜數(shù)據(jù)還逗留在泡沫階段,不外大年夜數(shù)據(jù)的泡沫不會(huì)比云計(jì)較大年夜,因?yàn)樵朴?jì)較更多觸及的是架構(gòu)標(biāo)題問題,業(yè)內(nèi)不合比較多,而大年夜數(shù)據(jù)存眷的只是營業(yè),加倍專注,是以也會(huì)更快地實(shí)現(xiàn)落地。
核心二:上馬大年夜數(shù)據(jù)要做哪些預(yù)備?
按照計(jì)世資訊發(fā)布的大年夜數(shù)據(jù)市場(chǎng)調(diào)研陳述顯示,將來半數(shù)以上的企業(yè)會(huì)采取大年夜數(shù)據(jù)解決方案。用戶假定真的要擺設(shè)大年夜數(shù)據(jù)解決方案,要做哪些預(yù)備?
體味需求、獲得老板的承認(rèn),是起首要考慮的。許偉明覺得,從公司角度來看,最大年夜的標(biāo)題問題是若何獲得老板的撐持;而從營業(yè)層面解纜,則需要考慮實(shí)際的需求。好比你所處的企業(yè)假定數(shù)據(jù)量很大年夜,則需要在IT架構(gòu)上做預(yù)備,考慮包含數(shù)據(jù)是如何匯集的、從哪里匯集、若何與其他數(shù)據(jù)進(jìn)行匹配等標(biāo)題問題。而在把持過程中,則可以起首測(cè)驗(yàn)測(cè)驗(yàn)一些開源的東西進(jìn)行小范圍測(cè)試,做一些根基體味,然后再找相干的專家細(xì)心進(jìn)行評(píng)估。
這僅僅是最根本的部門,在此之上,企業(yè)還要將項(xiàng)目與整體營業(yè)慎密地聯(lián)系在一路。因?yàn)榧俣ㄖ皇橇尕昕紤]某一部門的營業(yè),掉敗的概率很是大年夜。楊永波暗示,從IT架構(gòu)層面來講,很大都據(jù)的獲得其實(shí)不等閑,打通所有層級(jí)、部門的數(shù)據(jù)是比較難的,可是只有把信息打通了,才具有了真實(shí)的大年夜數(shù)據(jù)。
郝繼玖則進(jìn)一步做了彌補(bǔ):“大年夜數(shù)據(jù)響應(yīng)的IT架構(gòu)搭建完成后,還需要考慮辦事的尺度化,因?yàn)楦鴶?shù)據(jù)量、設(shè)備及人員的增加,若何分工、包管高質(zhì)量的運(yùn)維結(jié)果是需要火急考慮的標(biāo)題問題,這個(gè)過程就需要成立統(tǒng)一的辦事尺度和流程?!?/P>
除手藝層面的標(biāo)題問題外,還有一個(gè)很大年夜的標(biāo)題問題就是隱私標(biāo)題問題。張華平講到,此刻有良多大年夜數(shù)據(jù)隱私被濫用的標(biāo)題問題,不管從國度仍是公司層面來講,要想把大年夜數(shù)據(jù)做好,都面對(duì)數(shù)據(jù)公開的標(biāo)題問題,需要各個(gè)部門數(shù)據(jù)的暢通領(lǐng)悟。是以,操縱大年夜數(shù)據(jù)的時(shí)辰,要考慮隱私的標(biāo)題問題。別的,還需要考慮數(shù)據(jù)本身的生命周期標(biāo)題問題,有一些老的或過時(shí)的數(shù)據(jù),可能對(duì)你最后的闡發(fā)成果產(chǎn)生出格糟的影響。是以,專業(yè)的人才不成或缺,應(yīng)當(dāng)有一些數(shù)據(jù)闡發(fā)師,或跟營業(yè)相干的數(shù)據(jù)科學(xué)家對(duì)數(shù)據(jù)進(jìn)行闡發(fā)。
核心三:用開源平臺(tái)仍是商業(yè)軟件?
一提到大年夜數(shù)據(jù)良多人會(huì)想到Hadoop。作為開源平臺(tái)的忠厚撐持者,張華平覺得做開源和共享平臺(tái),從最終的環(huán)境來看,獲得的價(jià)值更大年夜。因?yàn)殚_源軟件介入的用戶多,反饋多,更等閑改進(jìn)和完美。
不外,楊永波其實(shí)不這么看,他覺得Hadoop不便是大年夜數(shù)據(jù),針對(duì)非布局化數(shù)據(jù)的闡發(fā),Hadoop是比較好的平臺(tái),也是此刻被遍及接管的平臺(tái)。但也正因?yàn)槠涫情_源平臺(tái),也存在一些短處,好比辦事質(zhì)量沒法包管。別的,Hadoop有良多版本,要真正實(shí)現(xiàn)商用,需要用戶具有足夠高的手藝程度。是以,用戶在選擇時(shí)其實(shí)不克不及一味尋求開源,需要綜合考慮本身的環(huán)境。
對(duì)此,許偉明暗示認(rèn)同楊永波的不雅點(diǎn),他覺得不管是開源仍是商業(yè)軟件,最首要的仍是辦事質(zhì)量、辦事速度,不克不及一味考慮成本標(biāo)題問題。
郝繼玖暗示:“大年夜數(shù)據(jù)成長(zhǎng)速度愈來愈快,給IT市場(chǎng)帶來的空間也愈來愈大年夜。是以,在開源平臺(tái)方面,我們一向在積極介入,鞭策行業(yè)的成長(zhǎng)。戴爾其實(shí)不供給大年夜數(shù)據(jù)運(yùn)行平臺(tái),供給的只是此中的計(jì)較能力。”
核心四:大年夜數(shù)據(jù)期間,安然若何包管?
大年夜數(shù)據(jù)并沒有人架空,但在記者采訪過程中,常常有效戶問如許的標(biāo)題問題:若何包管我的信息安然,假定沒法包管安然,大年夜數(shù)據(jù)還上不上?對(duì)此,張華平一語中的,“我們不會(huì)因?yàn)楦哞F掉事不坐高鐵,不會(huì)因?yàn)轱w機(jī)掉事不坐飛機(jī),大年夜數(shù)據(jù)是科技成長(zhǎng)的趨勢(shì),但要掌控好標(biāo)的目標(biāo),這需要法令的完美?!?/P>
張華平的不雅點(diǎn)獲得了與會(huì)佳賓的附和。郝繼玖覺得,數(shù)據(jù)是把雙刃劍。消費(fèi)者網(wǎng)購時(shí)需要供給家庭地址,才能給你運(yùn)過來,這是顛末同意獲得你的信息,因?yàn)橛薪艹龅姆瞽h(huán)境進(jìn)行統(tǒng)一治理,所以買家不消那么擔(dān)憂;而糊口中良多時(shí)辰是濫用信息的匯集,是在用戶不知情的環(huán)境下匯集你的信息,這就需要響應(yīng)立法進(jìn)行呵護(hù)。大年夜數(shù)據(jù)也是近似的,只讓合適的人操縱我的數(shù)據(jù)。別的,關(guān)于大年夜數(shù)據(jù)的報(bào)導(dǎo),將來也要有嚴(yán)格的法令呵護(hù)系統(tǒng),包管我的數(shù)據(jù)不被泄漏出往。
許偉明還在此根本上提到了均衡,他講到,一個(gè)信息點(diǎn)傳播出往,對(duì)某小我而言,多是隱私遭到了加害,但從另外一個(gè)角度來看,你把互聯(lián)網(wǎng)當(dāng)作是一個(gè)系統(tǒng),你不竭地操練這個(gè)系統(tǒng),讓其更好地為你辦事,其實(shí)也不是壞事?!拔覀冏雒襟w的,研究的大年夜數(shù)據(jù)就包含精準(zhǔn)的告白投放。
好比在你瀏覽的時(shí)辰,獲得了你想要的告白信息,對(duì)用戶而言也不是壞事。再好比你在研究觀光的時(shí)辰,給你一些觀光社的信息,或給你一些比較便宜的飛機(jī)票等,相信客戶仍是愿意看的。實(shí)際上你可以成心識(shí)地泄漏一些你的信息,如許系統(tǒng)會(huì)闡發(fā)你的數(shù)據(jù),真正地幫忙你,所以我感覺沒需要驚駭。而歹意的信息匯集、未經(jīng)用戶承諾匯集的信息,都是背法的。這此中就需要均衡,不克不及因?yàn)橛锌赡鼙恍孤╇[私就不消大年夜數(shù)據(jù)。”