大數(shù)據(jù)其實(shí)就是個(gè)大胖子!
近年來,有關(guān)大數(shù)據(jù)的熱點(diǎn)話題一浪高過一浪,關(guān)注大數(shù)據(jù)應(yīng)用的人也越來越多??傮w來說,人們對(duì)大數(shù)據(jù)的前景持樂觀態(tài)度,比如談到大數(shù)據(jù)的技術(shù)特征,人們最容易想起的就是4個(gè)v:vast(數(shù)量龐大)、variety(種
近年來,有關(guān)大數(shù)據(jù)的熱點(diǎn)話題一浪高過一浪,關(guān)注大數(shù)據(jù)應(yīng)用的人也越來越多??傮w來說,人們對(duì)大數(shù)據(jù)的前景持樂觀態(tài)度,比如談到大數(shù)據(jù)的技術(shù)特征,人們最容易想起的就是4個(gè)“v”:vast(數(shù)量龐大)、variety(種類繁多)、velocity(增長(zhǎng)迅速)和value(總價(jià)值高)。這些都沒錯(cuò),但仔細(xì)一想,它們都是偏重說明大數(shù)據(jù)的正面優(yōu)勢(shì)的。但其實(shí),大也有大的難處,大數(shù)據(jù)也不可避免地存在著一些負(fù)面劣勢(shì),大數(shù)據(jù)部就是個(gè)大胖子麼,這些"胖”可以概括四點(diǎn):
inflated——大數(shù)據(jù)是肥胖的。大數(shù)據(jù)的大不僅僅體現(xiàn)在數(shù)據(jù)記錄的行數(shù)多,更體現(xiàn)在字段變量的列數(shù)多,這就為分析多因素之間的關(guān)聯(lián)性帶來了難度。哪怕是最簡(jiǎn)單的方差分析,計(jì)算一兩個(gè)還行,計(jì)算一兩百個(gè)就讓人望而生畏了。
unstructured——大數(shù)據(jù)是非結(jié)構(gòu)化的。大數(shù)據(jù)的結(jié)構(gòu)也是非常復(fù)雜的,既包括像交易額、時(shí)間等連續(xù)型變量,像性別、工作類型等離散型變量這樣傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),更增添了如文本、社會(huì)關(guān)系網(wǎng)絡(luò),乃至語音、圖像等大量新興的非結(jié)構(gòu)化數(shù)據(jù),而這些非結(jié)構(gòu)化數(shù)據(jù)蘊(yùn)含的信息量往往更加巨大,但分析手段卻略顯單薄。
incomplete——大數(shù)據(jù)是殘缺的。在現(xiàn)實(shí)的世界里,由于用戶登記的信息不全、計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)的錯(cuò)誤等種種原因,數(shù)據(jù)缺失是常見的現(xiàn)象。在大數(shù)據(jù)的場(chǎng)景下,數(shù)據(jù)缺失更是家常便飯,這就為后期的分析與建模質(zhì)量增加了不確定的風(fēng)險(xiǎn)。
abnormal——大數(shù)據(jù)是異常的。大數(shù)據(jù)里還有不少異常值(outlier)。比如某些連續(xù)型變量(如一個(gè)短期時(shí)間內(nèi)的交易金額)的取值太大,某些離散型變量(如某個(gè)被選購的產(chǎn)品名稱)里的某個(gè)水平值出現(xiàn)的次數(shù)太少,等等。如果不刪除,很可能干擾模型系數(shù)的計(jì)算和評(píng)估;如果直接刪除,又覺得缺乏說服力,容易引起他人的質(zhì)疑。這使得分析人員落到了一個(gè)進(jìn)退兩難的境地。
利用大數(shù)據(jù)的分析,已經(jīng)可以預(yù)見和分析出很多當(dāng)下時(shí)代的大趨勢(shì)了。但是,數(shù)據(jù)的真實(shí)性如何保證?如果沒有全面、客觀認(rèn)識(shí)大數(shù)據(jù)的過程,即便得到很多可預(yù)見的數(shù)據(jù),又有幾分準(zhǔn)確性?想要真正運(yùn)用好大數(shù)據(jù),并不是一項(xiàng)在常規(guī)條件下數(shù)據(jù)分析的簡(jiǎn)單升級(jí),而是一項(xiàng)需要大智慧的綜合工作。
inflated——大數(shù)據(jù)是肥胖的。大數(shù)據(jù)的大不僅僅體現(xiàn)在數(shù)據(jù)記錄的行數(shù)多,更體現(xiàn)在字段變量的列數(shù)多,這就為分析多因素之間的關(guān)聯(lián)性帶來了難度。哪怕是最簡(jiǎn)單的方差分析,計(jì)算一兩個(gè)還行,計(jì)算一兩百個(gè)就讓人望而生畏了。
unstructured——大數(shù)據(jù)是非結(jié)構(gòu)化的。大數(shù)據(jù)的結(jié)構(gòu)也是非常復(fù)雜的,既包括像交易額、時(shí)間等連續(xù)型變量,像性別、工作類型等離散型變量這樣傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),更增添了如文本、社會(huì)關(guān)系網(wǎng)絡(luò),乃至語音、圖像等大量新興的非結(jié)構(gòu)化數(shù)據(jù),而這些非結(jié)構(gòu)化數(shù)據(jù)蘊(yùn)含的信息量往往更加巨大,但分析手段卻略顯單薄。
incomplete——大數(shù)據(jù)是殘缺的。在現(xiàn)實(shí)的世界里,由于用戶登記的信息不全、計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)的錯(cuò)誤等種種原因,數(shù)據(jù)缺失是常見的現(xiàn)象。在大數(shù)據(jù)的場(chǎng)景下,數(shù)據(jù)缺失更是家常便飯,這就為后期的分析與建模質(zhì)量增加了不確定的風(fēng)險(xiǎn)。
abnormal——大數(shù)據(jù)是異常的。大數(shù)據(jù)里還有不少異常值(outlier)。比如某些連續(xù)型變量(如一個(gè)短期時(shí)間內(nèi)的交易金額)的取值太大,某些離散型變量(如某個(gè)被選購的產(chǎn)品名稱)里的某個(gè)水平值出現(xiàn)的次數(shù)太少,等等。如果不刪除,很可能干擾模型系數(shù)的計(jì)算和評(píng)估;如果直接刪除,又覺得缺乏說服力,容易引起他人的質(zhì)疑。這使得分析人員落到了一個(gè)進(jìn)退兩難的境地。
利用大數(shù)據(jù)的分析,已經(jīng)可以預(yù)見和分析出很多當(dāng)下時(shí)代的大趨勢(shì)了。但是,數(shù)據(jù)的真實(shí)性如何保證?如果沒有全面、客觀認(rèn)識(shí)大數(shù)據(jù)的過程,即便得到很多可預(yù)見的數(shù)據(jù),又有幾分準(zhǔn)確性?想要真正運(yùn)用好大數(shù)據(jù),并不是一項(xiàng)在常規(guī)條件下數(shù)據(jù)分析的簡(jiǎn)單升級(jí),而是一項(xiàng)需要大智慧的綜合工作。

責(zé)任編輯:熊川
免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與本站無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
我要收藏
個(gè)贊
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng)
-
新基建助推 數(shù)據(jù)中心建設(shè)將迎爆發(fā)期
2020-06-16數(shù)據(jù)中心,能源互聯(lián)網(wǎng),電力新基建 -
泛在電力物聯(lián)網(wǎng)建設(shè)下看電網(wǎng)企業(yè)數(shù)據(jù)變現(xiàn)之路
2019-11-12泛在電力物聯(lián)網(wǎng) -
泛在電力物聯(lián)網(wǎng)建設(shè)典型實(shí)踐案例
2019-10-15泛在電力物聯(lián)網(wǎng)案例
-
新基建之充電樁“火”了 想進(jìn)這個(gè)行業(yè)要“心里有底”
2020-06-16充電樁,充電基礎(chǔ)設(shè)施,電力新基建 -
燃料電池汽車駛?cè)雽こ0傩占疫€要多久?
-
備戰(zhàn)全面電動(dòng)化 多部委及央企“定調(diào)”充電樁配套節(jié)奏
-
權(quán)威發(fā)布 | 新能源汽車產(chǎn)業(yè)頂層設(shè)計(jì)落地:鼓勵(lì)“光儲(chǔ)充放”,有序推進(jìn)氫燃料供給體系建設(shè)
2020-11-03新能源,汽車,產(chǎn)業(yè),設(shè)計(jì) -
中國(guó)自主研制的“人造太陽”重力支撐設(shè)備正式啟運(yùn)
2020-09-14核聚變,ITER,核電 -
能源革命和電改政策紅利將長(zhǎng)期助力儲(chǔ)能行業(yè)發(fā)展
-
探索 | 既耗能又可供能的數(shù)據(jù)中心 打造融合型綜合能源系統(tǒng)
2020-06-16綜合能源服務(wù),新能源消納,能源互聯(lián)網(wǎng) -
5G新基建助力智能電網(wǎng)發(fā)展
2020-06-125G,智能電網(wǎng),配電網(wǎng) -
從智能電網(wǎng)到智能城市
-
山西省首座電力與通信共享電力鐵塔試點(diǎn)成功
-
中國(guó)電建公司公共資源交易服務(wù)平臺(tái)摘得電力創(chuàng)新大獎(jiǎng)
-
電力系統(tǒng)對(duì)UPS的技術(shù)要求