重讀《大數據時代》:關於大資料的再認識
2016-09-13
在大資料時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的資料,"樣本=總體""
比以前預測美國總統大選,採用的是民意抽樣統計,而如今已經可以對於社區用戶所有言論的判斷來更精准的預測。
可以這麼大膽推測,當某個領域具備"樣本=總體"的時候,就是該領域被大資料替換的時刻。
只有5%的資料是結構化且能適用于傳統資料庫的。如果不接受混亂,剩下95%的非結構化資料都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶,大資料的簡單演算法比小資料的複雜演算法更有效。
傳統資料處理追求"精確度",這種思維方式適用於掌握"小資料量"的情況,因為需要分析的資料很少,所以我們必須盡可能精准地量化我們的記錄。
大資料紛繁多樣,優劣摻雜,分佈廣泛。擁有了大資料, 我們不再需要對一個現象刨根究底,只要掌握大體的發展方向即可,適當忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。
在大資料時代,我們無須再緊盯事物之間的因果關係,不再把分析建立在早已設立的假設的基礎之上。而應該尋找事物之間的相關關係,讓大資料告訴我們"是什麼"而不是"為什麼"。
另一方面,當前階段由於我們對於世界的認知太少,人類在有限的時間內不可能找到"終極真理",大量的規律通過大資料暴露出了蛛絲馬跡,即所謂的相關關係,但其本質上仍是因果關係的體現,因此兩者並不衝突。一個解決當前問題,是近,一個解決長期問題,是遠,兩者相輔相成,無所謂誰替代誰。
統計學家們花了200多年,總結出認知資料過程中的種種陷阱,這些陷阱並沒有被填平,比如採樣,大資料中有大量的小資料問題,這些問題不會隨著資料量的增大而消失,要注意資料(樣本)的偏差,比如Google的流感預測為什麼近3年失敗,因為其隨機性實際不夠,比如媒體對於流感流行的報導會增加與流感相關的詞彙的搜索次數,進而影響Google的預測,對穀歌大肆炒作的流感跟蹤系統的研究結果發現,該系統多年來一直高估美國的流感病例。這項失敗凸顯了依賴大資料技術的危險性。
"穀歌在2008年推出的流感趨勢系統監測全美的網路搜索,尋找與流感相關的詞語,比如"咳嗽"和"發燒"等。它利用這些搜索來提前9個星期預測可能與流感相關的就醫量。在過去3年,該系統一直高估與流感相關的就醫量,在這類資料最有用的流感季節高峰期尤其預測不準確。在2012/2013流感季節,它預測的就醫量是美國疾控中心(CDC)最終記錄結果的兩倍;在2011/2012流感季節,它高估了逾50%。"
所謂的數位化指的是把類比資料轉換成用0和1表示的二進位碼,而資料化是指把現象轉變成可製表分析的量化形式的過程,舉個例子,我們掃描實體書成為電子書,如果保存形式是圖片,這個只能叫作數位化,而我們通過字元識別軟體進行了文本解析,圖像就變成了資料化文本,兩者有本質的不同,萬物只有資料化後,才可以被量化,我們才能通過量化後的資料創造更多的價值。美國政府在提資料開放的時候,強調了開放的資料必須是可以有機讀的,就是這個意思,一個PDF的信息量跟一個WORD的信息量顯然是不一樣的。
技術始終要為應用服務,我們應該致力於用技術解決業務問題,而不是被潮流技術牽著鼻子走。
大資料時代,很多資料在收集時並無意用於其它用途,但最終往往是二次開發利用創造了價值,公司無法告知用戶尚未想到的用途,而個人也無法同意這種尚是未知的用途。
實際上大資料更大的價值是帶動有關的科研和產業,提高個行業通過資料分析解決困難問題和增值的能力,大資料價值體現在它的驅動效益。
所謂的"啤酒與尿布"的資料採擷經典案例,其實是Teradata公司的一位經理編造出來的"故事",歷史上並沒有發生過,這個天雷滾滾啊。
沒有留言:
張貼留言