創作獨白
因為巨量資料,從此你我都不用知道「為何如此」,只要知道「正是如此」就行了!
作者:林榮崧 / 2013-06-11 瀏覽次數(10178)
熟悉這些字眼的科技專業人士知道,這些術語都是big data的翻譯,直譯為「大數據」,正式名稱應該叫「巨量資料」, 因為它有個相對應的名詞,叫「小量資料」(small data)。
但是對於大多數讀者來說,這些名詞大概就如同「數位」、「網路」、「雲端」一般,只是感覺到又一波新的資訊浪潮已經襲來,至於它到底有什麼內涵、將會如何影響我們、又要把我們沖到哪裡去……即便看過許多炫目的報導,曉得它有許許多多的應用實例,威力無窮,但看到後來,不免都把巨量資料視為一種新穎的科技問題,是屬於硬體配置或軟體設計的技術問題,不是一般人能夠駕馭的。我們就好像在看一場精采的馬戲團表演,看得好熱鬧,卻看不出門道來。
麥爾荀伯格(Viktor Mayer-Schonberger)和庫基耶(Kenneth Cukier)這兩位最頂尖的巨量資料專家,合寫的這一本《大數據》,可說是真正掌握到巨量資料的門道了,而且是科技專業人士也未必清楚明白的門道!兩位作者就像金庸筆下的風清揚,對你傳授「獨孤九劍」的心法,不管你是劍術的門外漢、或是名山大院的門徒、還是久經江湖的行家,只要親炙過這套心法,日後不管是遇到哪種令人眼花撩亂的劍招,你立刻能看出精髓、也看穿破綻來。
簡單說,他們希望這本《大數據》能幫讀者醍醐灌頂三種「巨量資料時代的新思維」(以及好幾種掌握門道的心法)
第一種新思維是「樣本=母體」。過去資料不足的時代,也就是小量資料的時代,由於很難掌握到全體的資料,只好抽取樣本,發展種種統計技巧去推估母體的概況。但是在巨量資料時代,掌握全體的資料已不是夢,我們不用再劃地自限,拘泥於統計觀點了。要大膽而廣泛的蒐羅所有的資料,這思維是各行各業都適用的。
第二種新思維是「擁抱不精確」。資料出點差錯也沒關係,因為資料數量遠比資料品質更重要。只要你能握有巨量的資料,即便資料有瑕疵,你也能過濾、淬取出資料的精華,聽清楚資料真正要對你說的話。
第三種新思維最重要了,就是「找到相關性,不再追求因果關係」,也就說,你我都不用知道「為何如此」,只要知道「正是如此」就行了!這種概念等於推翻了過去幾百年來的既定做法和基本思維。尤其在面對巨量資料的擁有者(公司或政府)可能侵犯個人隱私的時候,具備這個新思維是無比重要的。
好啦,看到這裡,如果你對於巨量資料的門道和心法是什麼,仍然模模糊糊,這是當然的。如果我寫這幾百個字就能讓你搞懂,那《大數據》這本書就太沒有價值了。可是我相信,你必然已經知道這本《大數據》要傳授的心法,跟其他報章雜誌書籍的浮面報導截然不同。讀完《大數據》,肯定會讓你在工作、生活、思路各方面,有了全新而敏銳的見解。文/天下文化科學叢書編輯總監 林榮崧
回文章列表