重讀《大數據時代》:關於大數據的再認識
時間:2018-09-26 14:39 閱讀:1106 整理:市場調研公司
《大數據時代:生活、工作與(yu) 思維的大變革》是被譽為(wei) “大數據時代的預言家”的牛津大學教授維克托.邁克-舍恩伯格所寫(xie) 的一本經典大數據書(shu) 籍,2013年筆者首讀此書(shu) ,豁然開朗,其中很多的觀點振聾發聵,如果你還沒讀過此書(shu) ,建議你可以讀一下。
一晃三年過去,筆者對於(yu) 大數據也有了一些新的認識, 無論是所謂的大數據帶來了思維方式上的變革,還是技術上的革命,或者商業(ye) 模式或管理模式的改變,但從(cong) 本質的角度講,大數據還沒有達到所謂的高度,即大數據時代,其與(yu) 信息時代的計算機、集成電路、光纖通信,互聯網相比,目前還無法媲美,衡量大數據成功的標誌,是是否推動了國家的人均信息消費水平達到一個(ge) 新的高度(此句摘自李國傑院士)。
對於(yu) 《大數據時代》此書(shu) 提的很多觀點應該用辯證的方法來看待,以下筆者就一些認識上的一些爭(zheng) 議給出自己的理解,注意,後麵有彩蛋,一定要看完哦:
“不是隨機樣本,而是全體(ti) 數據”,實際大多並不是這樣
作者表達了一個(ge) 觀點,“當數據處理技術已經發生了翻天覆地的變化時,在大數據時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們(men) 需要的是所有的數據,“樣本=總體(ti) ””。
這種說法表明了一種新的認知世界的方式,是一種新的趨勢,努力達到全量的確可以讓我們(men) 抓到了更多的細節,讓我們(men) 擺脫傳(chuan) 統統計分析學的束縛,就好比以前預測美國總統大選,采用的是民意抽樣統計,而如今已經可以對於(yu) 社區用戶所有言論的判斷來更精準的預測。
但是,現實世界很殘酷,大多數領域你其實無法拿到全量的數據,或者,如果你要拿到全量的數據,代價(jia) 極其巨大,因此,大多數時候,我們(men) 用的大數據仍是局部的小數據,沒有所謂“樣本=總體(ti) ”的條件,傳(chuan) 統的以抽樣來理解這個(ge) 世界的方式仍然有效,機器學習(xi) 與(yu) 統計學作為(wei) 一種認知世界的方法也將持續有效,前期的AlphaGo與(yu) 李世石的人機大戰。AlphaGo隻能用采樣的方式獲得有限的棋局進行深度學習(xi) 就是例證,因為(wei) 你不可能拿到全部的樣本或者甚至是足夠的樣本,因為(wei) 這個(ge) 數量比全宇宙的原子還多。
當然,對於(yu) 國際象棋和中國象棋上,全量的數據已經使得傳(chuan) 統勝負的玄妙缺失了意義(yi) ,因此,可以這麽(me) 大膽推測,當某個(ge) 領域具備“樣本=總體(ti) ”的時候,就是該領域被大數據替換的時刻。
“不是精確性,而是混雜性”,沒能力但不能否定精確性的價(jia) 值
作者表達了這樣一個(ge) 觀點,執迷於(yu) 精確性是信息時代和模擬時代的產(chan) 物。隻有5%的數據是結構化且能適用於(yu) 傳(chuan) 統數據庫的。如果不接受混亂(luan) ,剩下95%的非結構化數據都無法被利用,隻有接受不精確性,我們(men) 才能打開一扇從(cong) 未涉足的世界的窗戶,大數據的簡單算法比小數據的複雜算法更有效。
傳(chuan) 統數據處理追求“精確度”,這種思維方式適用於(yu) 掌握“小數據量”的情況,因為(wei) 需要分析的數據很少,所以我們(men) 必須盡可能精準地量化我們(men) 的記錄。大數據紛繁多樣,優(you) 劣摻雜,分布廣泛。擁有了大數據, 我們(men) 不再需要對一個(ge) 現象刨根究底,隻要掌握大體(ti) 的發展方向即可,適當忽略微觀層麵上的精確度會(hui) 讓我們(men) 在宏觀層麵擁有更好的洞察力。
這段話說得沒錯,但我認為(wei) 大數據的複雜算法對於(yu) 認識這個(ge) 世界更為(wei) 重要,對於(yu) 精準性的把握始終是我們(men) 的目標,隻是因為(wei) 我們(men) 現在的算法太弱了,無法駕馭大數據,才提簡單的算法。
比如,在工業(ye) 界一直有個(ge) 很流行的觀點:在大數據條件下,簡單的機器學習(xi) 模型會(hui) 比複雜模型更加有效。例如,在很多的大數據應用中,最簡單的線性模型得到大量使用。而最近深度學習(xi) 的驚人進展,促使我們(men) 也許到了要重新思考這個(ge) 觀點的時候。簡而言之,在大數據情況下,也許隻有比較複雜的模型,或者說表達能力強的模型,才能充分發掘海量數據中蘊藏的豐(feng) 富信息。運用更強大的深度模型,也許我們(men) 能從(cong) 大數據中發掘出更多有價(jia) 值的信息和知識。
為(wei) 了理解為(wei) 什麽(me) 大數據需要深度模型,先舉(ju) 一個(ge) 例子。語音識別已經是一個(ge) 大數據的機器學習(xi) 問題,在其聲學建模部分,通常麵臨(lin) 的是十億(yi) 到千億(yi) 級別的訓練樣本。在Google的一個(ge) 語音識別實驗中,發現訓練後的DNN對訓練樣本和測試樣本的預測誤差基本相當。這是非常違反常識的,因為(wei) 通常模型在訓練樣本上的預測誤差會(hui) 顯著小於(yu) 測試樣本。因此,隻有一個(ge) 解釋,就是由於(yu) 大數據裏含有豐(feng) 富的信息維度,即便是DNN這樣的高容量複雜模型也是處於(yu) 欠擬合的狀態,更不必說傳(chuan) 統的GMM聲學模型了。所以從(cong) 這個(ge) 例子中我們(men) 看出,大數據需要複雜深度學習(xi) ,毫無疑問AlphGo也必定是欠擬合的。
“不是因果關(guan) 係,而是相關(guan) 關(guan) 係”,追求真理是我們(men) 永恒的目標
作者提出了這樣一個(ge) 觀點,尋找因果關(guan) 係是人類長久以來的習(xi) 慣。即使確定因果關(guan) 係很困難而且用途不大,人類還是習(xi) 慣性地尋找緣由。在大數據時代,我們(men) 無須再緊盯事物之間的因果關(guan) 係,不再把分析建立在早已設立的假設的基礎之上。而應該尋找事物之間的相關(guan) 關(guan) 係,讓大數據告訴我們(men) “是什麽(me) ”而不是“為(wei) 什麽(me) ”。
一方麵,應該承認基於(yu) 大數據的相關(guan) 關(guan) 係是我們(men) 認識世界和改造世界的新的方式,從(cong) 應用科學的角度講,降低對於(yu) 因果關(guan) 係的追求可以讓大數據創造更大的價(jia) 值。
另一方麵,當前階段由於(yu) 我們(men) 對於(yu) 世界的認知太少,人類在有限的時間內(nei) 不可能找到“終極真理”,大量的規律通過大數據暴露出了蛛絲(si) 馬跡,即所謂的相關(guan) 關(guan) 係,但其本質上仍是因果關(guan) 係的體(ti) 現,因此兩(liang) 者並不衝(chong) 突。一個(ge) 解決(jue) 當前問題,是近,一個(ge) 解決(jue) 長期問題,是遠,兩(liang) 者相輔相成,無所謂誰替代誰。從(cong) 社會(hui) 角度來講,企業(ye) 可以致力於(yu) 大數據相關(guan) 關(guan) 係來創造更多的商機,而因果關(guan) 係仍然是基礎研究需要追求的東(dong) 西,不能說人類物質上滿足了,就不去追求更為(wei) 本原的東(dong) 西。
同時,大數據方法也可以發現因果關(guan) 係,2014年,美國國防高級研究計劃局啟動其“大機理”項目。目的是發展可以發現隱藏在大數據中因果模型。典型“大機理”例子就是,1854年的倫(lun) 敦地圖顯示爆發霍亂(luan) 和汙染的公共水泵之間的聯係。該發現推翻了當時認為(wei) 疾病是通過空氣傳(chuan) 播的認識。大機理包含在巨大的、零碎的、有時相互矛盾的文獻和數據庫中,所以,沒有任何一個(ge) 人可以理解該如此複雜的係統,所以必須依靠計算機。
DARPA辦公室最初使用“大機理”工具來研究導致細胞癌變的複雜分子之間的相互作用。該方法包括使用電腦掃描癌症類論文,來獲取癌症路徑的有關(guan) 數據。獲取的數據片段可以組成”前所未有規模和精度”的完整路徑,以此來確定傳(chuan) 遞路徑如何互動。最後,自動工具可以幫助確定因果關(guan) 係,該因果關(guan) 係可用來開發潛在治療癌症的方法。科恩說:“分子生物學和癌症文獻強調機理,論文描述蛋白質如何影響其它蛋白質的表達,這些影響如何產(chan) 生生物效果。電腦應該可以被用來分析這些癌症類論文中的因果關(guan) 係。”通過強調因果模型和解釋,大機理將成為(wei) 科學的未來。
“小數據的問題,大數據就能解決(jue) ”,大數據並沒有解決(jue) 小數據問題
大數據體(ti) 現了4V特征,但我們(men) 現在碰到的數據仍是主要是小數據,我們(men) 應該抱著務實的態度去解決(jue) 小數據的問題,小數據的問題並不會(hui) 由於(yu) 大數據的產(chan) 生而自動解決(jue) 。
統計學家們(men) 花了200多年,總結出認知數據過程中的種種陷阱,這些陷阱並沒有被填平,比如采樣,大數據中有大量的小數據問題,這些問題不會(hui) 隨著數據量的增大而消失,要注意數據(樣本)的偏差,比如Google的流感預測為(wei) 什麽(me) 近3年失敗,因為(wei) 其隨機性實際不夠,比如媒體(ti) 對於(yu) 流感流行的報道會(hui) 增加與(yu) 流感相關(guan) 的詞匯的搜索次數,進而影響Google的預測,對穀歌大肆炒作的流感跟蹤係統的研究結果發現,該係統多年來一直高估美國的流感病例。這項失敗凸顯了依賴大數據技術的危險性。
“穀歌在2008年推出的流感趨勢係統監測全美的網絡搜索,尋找與(yu) 流感相關(guan) 的詞語,比如“咳嗽”和“發燒”等。它利用這些搜索來提前9個(ge) 星期預測可能與(yu) 流感相關(guan) 的就醫量。在過去3年,該係統一直高估與(yu) 流感相關(guan) 的就醫量,在這類數據最有用的流感季節高峰期尤其預測不準確。在2012/2013流感季節,它預測的就醫量是美國疾控中心(CDC)最終記錄結果的兩(liang) 倍;在2011/2012流感季節,它高估了逾50%。”
發人深省的彩蛋觀點,關(guan) 於(yu) 啤酒和尿布有點雷
(1)數據化,而不是數字化
所謂的數字化指的是把模擬數據轉換成用0和1表示的二進製碼,而數據化是指把現象轉變成可製表分析的量化形式的過程,舉(ju) 個(ge) 例子,我們(men) 掃描實體(ti) 書(shu) 成為(wei) 電子書(shu) ,如果保存形式是圖片,這個(ge) 隻能叫作數字化,而我們(men) 通過字符識別軟件進行了文本解析,圖像就變成了數據化文本,兩(liang) 者有本質的不同,萬(wan) 物隻有數據化後,才可以被量化,我們(men) 才能通過量化後的數據創造更多的價(jia) 值。美國政府在提數據開放的時候,強調了開放的數據必須是可以有機讀的,就是這個(ge) 意思,一個(ge) PDF的信息量跟一個(ge) WORD的信息量顯然是不一樣的。
(2)應用為(wei) 王,不要迷信技術
目前各類企業(ye) 都在建設大數據中心,但成本其實很大,當前的新的信息技術層出不窮,不斷冒出新概念,新名詞,大數據技術其實還在不停的發展,現階段,應該充分考慮成本因素,抱著應用為(wei) 先的態度,技術始終要為(wei) 應用服務,我們(men) 應該致力於(yu) 用技術解決(jue) 業(ye) 務問題,而不是被潮流技術牽著鼻子走。不用迷信Google等技術公司的創新,有的放矢的借鑒,BAT做得足夠好,不要去貶低這些公司的技術創新性,不要用Google的AlphGo去鄙視百度的人工智能,應用始終為(wei) 王,百度發明的人工智能輸入實際應用意義(yi) 可能遠大於(yu) AlphaGo。
(3)隱私問題,不是那麽(me) 簡單
告知與(yu) 許可也許已經是世界各地執行隱私政策的基本法則,但這個(ge) 法則有問題,大數據時代,很多數據在收集時並無意用於(yu) 其它用途,但最終往往是二次開發利用創造了價(jia) 值,公司無法告知用戶尚未想到的用途,而個(ge) 人也無法同意這種尚是未知的用途。如果穀歌要使用檢測詞預測流感的話,必須征得數億(yi) 用戶的同意,就算沒有技術障礙,有哪個(ge) 公司能負擔得起。
同樣,所謂的匿名化在小數據時代的確可以,但是隨著數據量和種類的增多,大數據促進了數據內(nei) 容的交叉檢驗。
政府在未來製定相關(guan) 法規的時候,應該充分尊重事實,也許提前預防永遠無法解決(jue) 大數據應用和隱私問題。
(4)大數據的驅動效應
大家所說的大數據是沙裏淘金,大海撈針,導致人們(men) 總是渴望從(cong) 大數據挖掘出意想不到的“價(jia) 值”。實際上大數據更大的價(jia) 值是帶動有關(guan) 的科研和產(chan) 業(ye) ,提高個(ge) 行業(ye) 通過數據分析解決(jue) 困難問題和增值的能力,大數據價(jia) 值體(ti) 現在它的驅動效益。
所謂的“啤酒與(yu) 尿布”的數據挖掘經典案例,其實是Teradata公司的一位經理編造出來的“故事”,曆史上並沒有發生過,這個(ge) 天雷滾滾啊。
馮(feng) .諾依曼指出:“在每一門學科中,當通過研究那些與(yu) 終極目標相比頗為(wei) 樸實的問題,發展出一些可以不斷加以推廣的方法時,這門學科就得到了巨大的進展。”在發展大數據技術和產(chan) 業(ye) 中,不應天天期盼奇跡出現,而應紮實多做“頗為(wei) 樸實”的事,培育數據文化,打造大數據應用環境,提高決(jue) 策合理性,開拓新的數據應用。
深有感觸,大數據推動了企業(ye) 的數據文化,大家對於(yu) 數據有了新的認識和充分的尊重,即使我們(men) 在用得大多仍然是小數據,那又如何,隻要我們(men) 的心中的數據已經足夠大。

關(guan) 注公眾(zhong) 號
獲取更多行業(ye) 資訊
本站文章內容以及所涉數據、圖片等資料來源於網絡,轉載目的在於傳遞更多信息。版權歸作者所有,文章僅代表作者觀點,不代表公海赌赌船官网jc710立場。 如涉及侵權,請聯係管理員刪除。在法律許可的範圍內,公海赌赌船官网jc710(廣州)數據科技股份有限公司享有最終解釋權。