「華人戴明學院」是戴明哲學的學習共同體 ,致力於淵博型智識系統的研究、推廣和運用。 The purpose of this blog is to advance the ideas and ideals of W. Edwards Deming.

2016年3月8日 星期二

Statistics, linear algebra and algorithmic thinking are more valuable in the digital age,大數據Big Data處理的局限 / The Risks of Big Data for Companies: Numbers never speak for themselves

以W. Edwards Deming 的著作和經歷而言,這兩大類的數學 ----微積分vs 統計學思考等---都不可偏。



Statistics, linear algebra and algorithmic thinking are more valuable in the digital age, Tianhui Michael Li and Allison Bishop write for WSJ Opinion
 They are becoming vital to the way we think about manufacturing, finance, public health, politics and even journalism.
Tianhui Michael Li and Allison Bishop write about the overemphasis on calculus in high school and college math courses.
WSJ.COM|由 TIANHUI MICHAEL LI AND ALLISON BISHOP 上傳

******

大數據處理的局限英國《金融時報》專欄作家 約翰•凱
週一,法國南部又在下雨(編者註:此文英文發表於2月11日)。不過,此前一天卻是晴天。上週三也很乾燥,但隨後的周四到週六差不多一直在下雨。讓人稍感安慰的是,對於暴風雨和晴天之間的時間間隔,幾天前就已有了精確的預報。這正是我為何在周一而不是前一天寫這篇專欄文章的原因。如今天氣預報的準確性已經大大改善了。英國廣播公司(BBC)再一次公佈了其歷史上最糟糕的那次天氣預報。 1987年,邁克爾•菲什(Michael Fish)曾在電視上向觀眾保證,颶風即將到來的謠言是毫無根據的。然而,幾小時之後,幾十年不遇的大風席捲了整個英國,掀翻了各地的屋頂,吹倒了許多大樹。不過,現在出現這種烏龍的可能性小多了。短期天氣預報是大數據領域的一項巨大成就——也許是最大的一項成就。超級計算機提供了大數據處理的機遇,其所處理數據集合的規模和復雜度都令人難以置信。據我所知,最新的超級計算機能處理1EB(艾字節,指2的60次方字節——譯者註)的數據,大約是我手頭這台蘋果公司(Apple)的Mac機處理能力的2000萬倍。英國氣象局(British Meteorological Office)聲稱,比起菲什那個年代最成功的預報,如今的三天期天氣預報和當時的一天期預報一樣準——不過,要想描述預報能力的提高程度,這可能不是一種最令人信服的方式。然而,一個依然存在的事實是,預報時間提前得越多,預報準確度下降得越厲害。天氣預報人員能向我們提供今明兩天足夠準確的預報。對於更長時間,他們仍然不能準確預報。兩者之間形成了鮮明對比。比如,今年冬天異常的天氣狀況就在預料之外。預報短期的天氣狀況是可能的。這是因為從某種意義上說,決定明天天氣狀況的多數因素已經出現了。如果你去YouTube網站上看看菲什那次災難性預報的視頻,你會在他給出的圖上看到引發1987年颶風的超低氣壓區。當時的預報員只是在分析現有數據時出了錯。只要提高分析能力,這種錯誤出現的可能性就會降低。不過,如果你預測的時間更提前一些,你會遭遇一個難以應對的問題:在非線性系統中,如果初始條件發生細微變化,時間過得越久,結果發生的變化就越大。在這種情況下,對初始狀況了解得不夠全面根本就和一無所知是一回事。這個道理在很大程度上對經濟和商業領域也是適用的。就像明天下不下雨或1987年颶風的問題一樣,對於明天的國內生產總值(GDP)將是多少的問題,答案或多或少已經擺在了那裡:明天的產品已在生產之中,明天的商品已擺上貨架,明天的業務已安排妥當。大數據處理將有助於我們分析這類信息。借助大數據處理,我們將更準確、更迅速地知道GDP是多少,我們將能更成功地預測下季度的產出,我們的前景預測需要調整的次數將會更少。在大數據處理的幫助下,對沖基金經理人將能在英國國家統計局(Office for National Statistics)自己都不知道統計數字之前,準確預測出他們將發布什麼樣的數據。實現這一目標能為他們自身帶來極大的盈利能力,但對社會來說沒什麼用。大數據處理能令他們得到非常全面的信息,其全面性不亞於​​英國央行貨幣政策委員會(MPC)調整利率時手頭持有的信息。不過,大數據處理無法幫助他們了解貨幣政策委員會將做出何種決策。也無法幫助他們了解美國財政部長漢克•鮑爾森(Hank Paulson)和雷曼兄弟公司(Lehman Brothers)首席執行官迪克•富爾德(Dick Fuld)對於該行即將出現的破產將如何應對。大數據有助於我們理解過去和現在。然而,它能在多大程度上幫助我們理解未來,要取決於未來在多大程度上通過某種相關性被包含在現在之中。這種相關性要求事件背後的運轉機制恆定不變。對於部分物理過程來說,這一原則是成立的。而對於這個包括了希特勒(Hitler)和拿破崙(Napoleon)、亨利•福特(Henry Ford)和史蒂夫•喬布斯(Steve Jobs)的世界來說,這一原則永遠都不成立。在這個世界裡,那些做出重大決策或發現的過程擁有先天的不可預測性,也無法進行定量描述。在這個世界裡,少一枚釘子也能輸掉一場戰爭,問題描述中的細微差別也能導致大相徑庭的結果。對於這樣的世界,以上原則也是不成立的。不過,在大數據處理的幫助下,我知道明天將再一次陽光普照。譯者/簡易

 



華為內部狂轉好文:有關大數據,看這一篇就夠了(大數據時代)

1613922_274964476005929_40783870_n
(導讀)科技的進步在很多的時候總會超出我們的想像,如果未來我們一個人擁有的電腦設備超過現在全球現在計算能力的總和,一個人產生的數據量超過現 在全球數據量的總和,甚至你的寵物小狗產生的信息量都超過現在全球數據量的總和,世界會發生什麼呢? 閱讀本文,大數據(Big Data)會告訴你一個充滿奇幻色彩的世界。
來源:華為IT產品解決方案
作者:潘少
一、詳解時髦詞彙:大數據
似乎一夜之間,大數據(Big Data)變成一個IT行業中最時髦的詞彙。
首先,大數據不是什麼完完全全的新生事物,Google的搜索服務就是一個典型的大數據運用,根據客戶的需求,Google實時從全球海量的數字資產(或數字垃圾)中快速找出最可能的答案,呈現給你,就是一個最典型的大數據服務。 只不過過去這樣規模的數據量處理和有商業價值的應用太少,在IT行業沒有形成成型的概念。 現在隨著全球數字化、網絡寬帶化、互聯網應用於各行各業,累積的數據量越來越大,越來越多企業、行業和國家發現,可以利用類似的技術更好地服務客戶、發現 新商業機會、擴大新市場以及提升效率,才逐步形成大數據這個概念。
有一個有趣的故事是關於奢侈品營銷的。 PRADA在紐約的旗艦店中每件衣服上都有RFID碼。 每當一個顧客拿起一件PRADA進試衣間,RFID會被自動識別。 同時,數據會傳至PRADA總部。 每一件衣服在哪個城市哪個旗艦店什麼時間被拿進試衣間停留多長時間,數據都被存儲起來加以分析。 如果有一件衣服銷量很低,以往的作法是直接幹掉。 但如果RFID傳回的數據顯示這件衣服雖然銷量低,但進試衣間的次數多。 那就能另外說明一些問題。 也許這件衣服的下場就會截然不同,也許在某個細節的微小改變就會重新創造出一件非常流行的產品。
從這個案例來看,大數據並不是很神奇的事情。 就如同電影《永無止境》提出的問題:人類通常只使用了20%的大腦,如果剩餘80%大腦潛能被激發出來,世界會變得怎樣? 在企業、行業和國家的管理中,通常只有效使用了不到20%的數據(甚至更少),如果剩餘80%數據的價值激發起來,世界會變得怎麼樣呢? 特別是隨著海量數據的新摩爾定律,數據爆發式增長,然後數據又得到更有效應用,世界會怎麼樣呢?
單個的數據並沒有價值,但越來越多的數據累加,量變就會引起質變,就好像一個人的意見並不重要,但1千人、1萬人的意見就比較重要,上百萬人就足以掀起巨大的波瀾,上億人足以改變一切。
中國的航班晚點非常多,相比之下美國航班準點情況好很多。 這其中,美國航空管制機構一個的好做法發揮了積極的作用,說起來也非常簡單,就是美國會公佈每個航空公司、每一班航空過去一年的晚點率和平均晚點時間,這 樣客戶在購買機票的時候就很自然會選擇準點率高的航班,從而通過市場手段牽引各航空公司努力提升準點率。 這個簡單的方法比任何管理手段都直接和有效。
沒有整合和挖掘的數據,價值也呈現不出來。 《永無止境》中 的庫珀如果不能把海量信息圍繞某個公司的股價整合起來、串聯起來,這些信息就沒有價值。
因此,海量數據的產生、獲取、挖掘及整合,使之展現出巨大的商業價值,這就是我理解的大數據。 在互聯網對一切重構的今天,這些問題都不是問題。 因為,大數據是互聯網深入發展的下一波應用,是互聯網發展的自然延伸。 目前,可以說大數據的發展到了一個臨界點,因此才成為IT行業中最熱門的詞彙之一。

二、大數據將重構很多行業的商業思維和商業模式
我想以對未來汽車行業的狂野想像來展開這個題目。
在人的一生中,汽車是一項巨大的投資。 以一部30萬車、7年換車週期來算,每年折舊費4萬多(這裡還不算資金成本),加上停車、保險、油、維修、保養等各項費用,每年耗費應在6萬左右。 汽車產業也是一個很長產業鏈的龍頭產業,這個方面只有房地產可以媲美。
但同時,汽車產業鍊是一個低效率、變化慢的產業。 汽車一直以來就是四個輪子、一個方向盤、兩排沙發(李書福語)。 這麼一個昂貴的東西,圍繞車產生的數據卻少的可憐,行業產業鏈之間幾無任何數據傳遞。
我們在這裡狂野地想像一番,如果將汽車全面數字化,都大數據了,會產生什麼結果?
有些人說,汽車數字化,不就是加個MBB模塊嗎? 不,這太小兒科了。 在我理想中,數字化意味著汽車可以隨時聯上互聯網,意味著汽車是一個大型計算系統加上傳統的輪子、方向盤和沙發,意味著可以數字化導航、自動駕駛,意味著 你和汽車相關的每一個行動都數字化,包括每一次維修、每一次駕駛路線、每一次事故的錄像、每一天汽車關鍵部件的狀態,甚至你的每一個駕駛習慣(如每一次的 剎車和加速)都記錄在案。 這樣,你的車每月甚至每週都可能產生T比特的數據。
好了,我們假設這些數據都可以存儲並分享給相關的政府、行業和企業。 這裡不討論隱私問題帶來的影響,假設在隱私保護的前提下,數據可以自由分享。
那麼,保險公司會怎麼做呢? 保險公司把你的所有數據拿過去建模分析,發現幾個重要的事實:一是你開車主要只是上下班,南山到坂田這條線路是非繁華路線,紅綠燈很少,這條路線過去一年 統計的事故率很低;你的車況(車的使用年限、車型)好,此車型在全深圳也是車禍率較低;甚至統計你的駕駛習慣,加油平均,臨時剎車少,超車少,和周圍車保 持了應有的車距,駕駛習慣好。 最後結論是你車型好,車況好,駕駛習慣好,常走的線路事故率低,過去一年也沒有出過車禍,因此可以給予更大幅度的優惠折扣。 這樣保險公司就完全重構了它的商業模式了。 在沒有大數據支撐之前,保險公司只把車險客戶做了簡單的分類,一共分為四種客戶,第一種是連續兩年沒有出車禍的,第二種過去一年沒有出車禍,第三種過去一 年出了一次車禍,第四種是過去一年出了兩次及以上車禍的,就四種類型。 在大數據的支持下,保險公司可以真正以客戶為中心,把客戶分為成千上萬種,每個客戶都有個性化的解決方案, 這樣保險公司經營就完全不同,對於風險低的客戶敢於大膽折扣,對於風險高的客戶報高價甚至拒絕,一般的保險公司就完全難以和這樣的保險公司競爭了。 擁有大數據並使用大數據的保險公司比傳統公司將擁有壓倒性的競爭優勢,大數據將成為保險公司最核心的競爭力,因為保險就是一個基於概率評估的生意,大數據 對於準確評估概率毫無疑問是最有利的武器,而且簡直是量身定做的武器。
在大數據的支持下,4S店的服務也完全不同了。 車況信息會定期傳遞到4S店,4S店會根據情況及時提醒車主及時保養和維修,特別是對於可能危及安全的問題,在客戶同意下甚至會採取遠程干預措施,同時還可以提前備貨,車主一到4S店就可以維修而不用等待。
對於駕駛者來說,不想開車的時候,在大數據和人工智能的支持下,車輛可以自動駕駛,並且對於你經常開的線路可以自學習自優化。 谷歌的自動駕駛汽車,為了對周圍環境作出預測,每秒鐘要收集差不多1GB的數據,沒有大數據的支持,自動駕駛是不可想像的;在和周圍車輛過近的時候,會及 時提醒車主避讓;上下班的時候,會根據實時大數據情況,對於你經常開車的線路予以提醒,繞開擁堵點,幫你選擇最合適的線路;到城市中心,尋找車位是一件很 麻煩的事情,但未來你可以到了商場門口後,讓汽車自己去找停車位,等想要回程的時候,提前通知讓汽車自己開過來接。
車輛是城市最大最活躍的移動物體,是擁堵的來源,也是最大的污染來源之一。 數字化的車輛、大數據應用將帶來很多的改變。 紅綠燈可以自動優化,根據不同道路的擁堵情況自動進行調整,甚至在很多地方可以取消紅綠燈;城市停車場也可以大幅度優化,根據大數據的情況優化城市停車位 的設計,如果配合車輛的自動駕駛功能,停車場可以革命性演變,可以設計專門為自動駕駛車輛的停車樓,地下、地上樓層可以高達幾十層,停車樓層可以更矮,只 要能高於車高度即可(或者把車豎起來停),這樣將對城市規劃產生巨大的影響;政府還可以每年公佈各類車型的實際排污量、稅款、安全性等指標,鼓勵民眾買更 節能、更安全的車。
電子商務和快遞業也可能發生巨大的變化。 運快遞的車都可以自動駕駛,不用趕白天的擁堵的道路,晚上半夜開,在你家門口設計自動接收箱,通過密碼開啟自動投遞進去,就好像過去報童投報一樣。
這麼想像下來,我認為,汽車數字化、互聯網化、大數據應用、人工智能,將對汽車業及相關的長長的產業鏈產生難以想像的巨大變化和產業革命,具有無限 的想像空間,可能完全被重構。 當然,要實現我所描述的場景,估計至少50年、100年之後的事情了,估計我這輩子是看不到的。
在這個章節的最後,我想總結一下自己對大數據的看法。
第一,大數據使企業真正有能力從以自我為中心改變為以客戶為中心。 企業是為客戶而生,目的是為股東獲得利潤。 只有服務好客戶,才能獲得利潤。 大數據的使用能夠使對企業的經營對像從客戶的粗略歸納(就是所謂提煉歸納的“客戶群”)還原成一個個活生生的客戶,這樣經營就有針對性,對客戶的服務就更 好,投資效率就更高。
第二,大數據一定程度上將顛覆了企業的傳統管理方式。 現代企業的管理方式是來源於對軍隊的模仿,依賴於層層級級的組織和嚴格的流程,依賴信息的層層匯集、收斂來製定正確的決策,再通過決策在組織的傳遞與分 解,以及流程的規範,確保決策得到貫徹,確保每一次經營活動都有質量保證,也確保一定程度上對風險的規避。
第三,大數據另外一個重大的作用是改變了商業邏輯,提供了從其他視角直達答案的可能性。 現在人的思考或者是企業的決策,事實上都是一種邏輯的力量在主導起作用。 大數據給了我們其他的選擇,就是利用數據的力量,直接獲得答案。 就好像我們學習數學,小時候學九九乘法表,中學學幾何,大學還學微積分,碰到一道難題,我們是利用了多年學習沉澱的經驗來努力求解,但我們還有一種方法, 在網上直接搜索是不是有這樣的題目,如果有,直接抄答案就好了。 很多人就會批評說,這是抄襲,是作弊。 但我們為什麼要學習啊? 不就是為了解決問題嘛。
第四,通過大數據,我們可能有全新的視角來發現新的商業機會和重構新的商業模式。 我們現在看這個世界,比如分析家中食品腐敗,主要就是依賴於我們的眼睛再加上我們的經驗,但如果我們有一台顯微鏡,我們一下就看到壞細菌,那麼分析起來完 全就不一樣了。 大數據就是我們的顯微鏡,它可以讓我們從全新視角來發現新的商業機會,並可能重構商業模型。 我們的產品設計可能不一樣了,很多事情不用猜了,客戶的習慣和偏好一目了然,我們的設計就能輕易命中客戶的心窩;我們的營銷也完全不同了,我們知道客戶喜 歡什麼、討厭什麼,更有針對性。 特別是顯微鏡再加上廣角鏡,我們就有更多全新的視野了。 這個廣角鏡就是跨行業的數據流動,使我們過去看不到的東西都能看到了。
最後一點,我想談的是大數據發展對IT本身技術架構的革命性影響。 大數據的根基是IT系統。 我們現代企業的IT系統基本上是建立在IOE(IBM小型機、Oracle數據庫、EMC存儲)+Cisco模型基礎上的,這樣的模型是Scale-UP 型的架構,在解決既定模型下一定數據量的業務流程是適配的,但如果是大數據時代,很快會面臨成本、技術和商業模式的問題,大數據對IT的需求很快就會超越 了現有廠商架構的技術頂點,超大數據增長將帶來IT支出增長之間的線性關係,使企業難以承受。 因此,目前在行業中提出的去IOE趨勢,利用Scale-out架構+開源軟件對Scale-up架構+私有軟件的取代,本質是大數據業務模型所帶來的, 也就是說大數據將驅動IT產業新一輪的架構性變革。 去IOE潮流中的所謂國家安全因素,完全是次要的。
所以,美國人說,大數據是資源,和大油田、大煤礦一樣,可以源源不斷挖出大財富。 而且和一般資源不一樣,它是可再生的,是越挖越多、越挖越值錢的,這是反自然規律的。 對企業如此,對行業、對國家也是這樣,對人同樣如此。

三、新智慧生物的誕生?
自然語言的機器翻譯,是長期以來人工智能研究的一個重要體現。 人工智能從過去到未來都有清晰而巨大的商業前景,是以前IT業的熱點,其熱度一點不亞於現在的“互聯網”和“大數據”。 但是,人類過去在推進人工智能的研究遇到了巨大的障礙,最後幾乎絕望。
當時人工智能就是模擬人的智能思考方式來構築機器智能。 以機器翻譯來說,語言學家和語言專家必須不辭勞苦地編撰大型詞典和與語法、句法、語義學有關的規則,數十萬詞彙構成詞庫,語法規則高達數万條,考慮各種情 景、各種語境,模擬人類翻譯,計算機專家再構建複雜的程序。 最後發現人類語言實在是太複雜了,窮舉式的做法根本達不到最基本的翻譯質量。 這條道路最後的結果是,1960年代後人工智能的技術研發停滯不前數年後,科學家痛苦地發現以“模擬人腦”、“重建人腦”的方式來定義人工智能走入一條死 胡同,這導致後來幾乎所有的人工智能項目都進入了冷宮。
後來有人就想,機器為什麼要向人學習邏輯呢,又難學又學不好,機器本身最強大的是計算能力和數據處理能力,為什麼不揚長避短、另走一條道路呢? 這條道路就是IBM“深藍”走過的道路。 1997年5月11日,國際象棋大師卡斯帕羅夫在和IBM公司開發的計算機“深藍”進行對弈時宣布失敗,計算機“深藍”因此贏得了這場意義深遠的“人機對 抗”。
類似的邏輯在後續也用到了機器翻譯上。 谷歌、微軟和IBM都走上了這條道路。 就是主要採用匹配法,同時結合機器學習,依賴於海量的數據及其相關相關統計信息,不管語法和規則,將原文與互聯網上的翻譯數據對比,找到最相近、引用最頻繁的翻譯結果做為輸出。
總而言之,利用這種技術,計算機教會自己從大數據中建立模式。 有了足夠大的信息量,你就能讓機器學會做看上去有智能的事情,別管是導航、理解話語、翻譯語言,還是識別人臉,或者模擬人類對話。
假設目前剛剛興起的穿戴式計算設備取得巨大的進展。 這種進展到什麼程度呢? 就是你家的寵物小狗身上也裝上了各種傳感器和穿戴式設備,比如有圖像採集,有聲音採集,有嗅覺採集,有對小狗的健康進行監控的小型醫療設備,甚至還有電子 藥丸在小狗的胃中進行消化情況監控。 小狗當然也聯上網,也一樣產生了巨大的數據量。 這時,我們假設基於這些大數據建模,能夠模擬小狗的喜怒哀樂,然後還能夠通過擬人化的處理進行語音表達,換句話說,就是模擬小狗說人話,比如主人回家時, 小狗搖尾巴,旺旺叫,那麼這個附著於小狗身上的人工智能係統就會說,“主人,真高興看到你回家”。 不僅如此,你還可以和小狗的人工智能係統進行對話,因為這個人工智能係統能基本理解你的意思,又能夠代替小狗擬人化表達。
我們繼續把這個故事來做延伸,把小狗換成未來的人,人在一生中產生大量的數據,根據這些數據建模可以直接推演出很多的結論,比如喜歡看什麼樣的電影啊,喜歡什麼口味的菜啊,在遇到什麼問題時會怎麼採取什麼行動啊。
這樣的數據一直累積下來,直到這個人去世。 我們有個大膽的想像,這些巨大的數據能否讓這個人以某種方式繼續存在下去呢? 後代有什麼問題需要尋求答案的時候,比如在人生的關鍵抉擇時,比如大學要上什麼專業、該不該和某個姑娘結婚,可不可以問問這個虛擬的人(祖先)有什麼建議 呢? 答案是當然可以。 在這種情況下,數字化生存不僅在人生前存在,也可以在人死後繼續存在。 人死了,可以在虛擬空間中繼續存在。 一輩子、一輩子的人故去,這些虛擬的智慧都可以繼續存在,假設很多年過去了,這些虛擬智慧的祖宗們太多太多了,活著的子孫們甚至可以組建一個“祖宗聯席參 謀委員會”,優選那些考得好的(比如中過狀元),當過國家高級公務員(比如太守)、當過企業高管(比如CEO)、當過教授、當過作家的等等當過成功人士的 祖宗,專門用於後代的諮詢、解惑。 讓這些祖宗死後還有競爭,別死了就沒有事情乾了。
這些說明什麼呢? 就是隨著大數據和機器學習的進一步進展,這個世界出現了新的智慧生物! 大數據和機器學習在改變、重構和顛覆很多企業、行業和國家以後,終於到了改變人類自身的時候了! 人類的演進出現了新的分支!
有科學家畫了下面一張圖,來描述這兩者智慧生物。 一種是基於生物性的,經過幾百萬年的進化而來;一種是基於IT技術,基於大數據和機器學習,通過自模擬、自學習而來。 前者更有邏輯性,更有豐富的情感,有創造力,但生命有限;後者沒有很強的邏輯性,沒有生物上的情感,但有很強的計算、建模和搜索能力,理論上生命是無限 的。
當然,這些事情要發生都會非常非常遙遠。 反正我們活著的時候是見不到了,死了也見不到,因為我們死的時候,我相信這種建立在大數據和機器學習之上的虛擬生命還不會存在。

四、結束語
我最後想說的是,我們對未來的認知,主要是基於常識和對未來的想像。 根據統計,現在《紐約時報》一周的信息量比18世紀一個人一生所收到的資訊量更大,現在18個月產生的信息比過去5000年的總和更多,現在我家一台 5000元電腦的計算能力比我剛入大學時全校的計算能力更強大。 科技的進步在很多的時候總會超出我們的想像,試想如果未來我們一個人擁有的電腦設備超過現在全球現在計算能力的總和,一個人產生的數據量超過現在全球數據 量的總和,甚至你的寵物小狗產生的信息量都超過現在全球數據量的總和,世界會發生什麼呢? 那就取決於你的想像力了。

【微訊 – 華為】

 

 

大數據帶給企業的風險

John Jordan

大數據”。這是最新的IT流行語,而原因也不難理解。更快、更深入地解析更多信息的能力,使企業、政府、研究機構等能夠以一種以前只能想象的方式去理解這個世界。

這些都是事實。不過呢……

還有一種情況同樣也是事實:在爭先恐后擁抱大數據的各種可能性之際,我們或許忽略了大數據帶來的挑戰,比如企業怎樣解讀信息,怎樣管理數據帶來的政治問題,以及怎樣尋找必需的人才來理解新信息的洪流。

也就是說,大數據為數據分析的游戲增添了更大額的賭注。侵犯隱私的可能性增加,在快速變幻的市場中的財務敞口加大,把噪音當真知灼見的可能性增加,把大量金錢和時間用于界定不清晰的問題或機會的風險加大。

如果不明白、不化解這些挑戰,我們就會面臨這類風險:將本來有望強化組織的一切數據變成一種牽扯精力的東西,一種幻象,或者是一場傷筋動骨的權力爭奪。

請允許我更具體地說說這些挑戰。

大數據確實是很好的工具,但誰擁有使用這些工具的技能?

找 到有能力使用Hive、Pig、Cassandra、MongoDB或Hadoop等數據分析工具的人才只是整個洋蔥的第一層。沒有幾家公司的內部專家能 夠從業務角度證明花錢聘請大數據專家的價值,更不用說對求職者的優劣展開評估。很多管理人員也缺乏基本的數學能力,所以如何找到能夠掌握更復雜統計機制的 決策者,也有可能是一種挑戰。


大多數企業都還在摸索大數據的分析方法,冒險嘗試的企業也越來越多。本圖以數據呈現了大數據的投資現狀、用途和所存在的一些問題。
讓事情更加復雜的是,大數據工具還沒有做好大范圍推廣的準備:它們仍在快速演化,大多數高校都沒有教,供應商的支持不夠理想,對用戶靈活性的要求也高于更成熟的工具。考慮到這種情況,尋找合適人才的重要性只增不減。

洋 蔥的另一層:要讓大數據發揮作用,程序員和分析師還要了解所涉行業的基本情況。比如說,一家制藥企業的數據分析師注意到,近乎實時的銷售終端數據顯示1月 份阿司匹林銷量大增,于是他們說,流感愈演愈烈。但在調動銷售資源開展大規模廣告活動并增加產量之前,不妨把當前的銷售型態與過去幾年的情況做個比較。阿 司匹林銷量增加也可能是很多人在參加新年前夜的聚會之后出現了宿醉反應。如果分析師不了解業務以及應該問的問題,那么公司就有可能在花了很多錢之后一次次 地走進死胡同。

最后一層是IT安全。如果說很多公司真的沒有能力使用大數據工具,那么它們肯定也沒有能力保障數據安全。收集到的信息越多,可能遭到泄露或竊取的信息也就越多。

信息即權力,所以很多信息就是很多權力。

人們常常認為掌握信息就會在組織內部掌握權力。顯然,不管是誰來決定大數據時代該衡量哪些東西,這個決定者都會積累越來越大的權力。

另外,跨越組織邊界的信息分享是大數據的屬性之一,它可以顛覆傳統的權力關系。

以一家在加拿大和美國各有一座工廠的公司為例。來自傳感器的數據流顯示加拿大工廠出產的發動機擁有97%的可靠性,美國工廠發動性的可靠性只有80%。突然之間,加拿大工廠管理人員在組織內部的地位可能就會升高,讓美國工廠的管理人員感到驚慌。

公司的效益可能會得到改善,但高管必須做好管理內部政治的準備。

再 舉一個例子。大數據使人有機會衡量先前無法衡量的東西。如果一家大型零售企業現在可以更快速、更方便地衡量消費者對不同營銷活動(不管是“超級碗”廣告、 雜志優惠券還是報紙廣告)的反應,不同的利益相關者在組織內部的相對地位可能就會發生變化。他們也有可能對社交媒體團隊產生憎恨,因為后者會用點擊率數據 來證明他們有能力或沒有能力拉動銷售收入。

原先要用幾個月時間來規劃、執行的流程現在可能只需幾分鐘就能評估完畢,將會進一步加劇上述顛覆過程。多年習慣了評估年度銷售業績的人常常很難應付每周甚至是每天的收入數據。按老一套辦法管理的人可能會發現自己已經落伍于新的世界。

有些東西可以衡量,不一定意味著它就應該衡量。

一旦知道信息即權力,有人可能就會投機取巧,損害公司的利益。

比如說,一家大公司開始以公司被推特(Twitter)提及的次數為指標來跟蹤網站流量,跟蹤結果在高管的推特活動一覽表(dashboard)上持續更新。

一 支銷售團隊的經理原先主要是通過貿易展會來獲取線索并最終達成銷售,然而當推特提及次數成為關鍵衡量指標之后,這位經理改變了部門的重點,宣稱“我們要拿 下dashboard”。到頭來這個部門可能確實是拿下了dashboard,但這樣一來,它強調的就不是曾經大獲成功的展會,而是沒有優質線索、無利可 圖的網站點擊量和社交媒體流量。

這些數據怎么處理?

普通數據庫大約已經存在了35年的時間,所以人們有了很多經驗,這些工具的理解和運用相對容易。相比之下,大數據還在萌芽階段,所以組織、理解其深層意義的技術仍然處在起步階段。

另 外,理解如此大規模的信息也不是一件容易的事情。安全大師布魯斯‧施奇納(Bruce Schneier)如此總結很多人的數學能力:“一個,兩個,三個,很多個。”電子表格仍然是很多公司的主要定量分析工具,但它遠遠不足以用來實時衡量某 個城市特定時刻道路上的汽車數量,或者是本周聯邦政府在交通項目上的支出。

視覺化對于這類數據可以起到極大的幫助作用,但這個領域仍不成熟,其特殊語言也沒有多少人懂得。

大數據思維的挑戰

在 如此大的規模層面上思考問題意味著什么?我們怎樣才能學會針對主城道路上每一輛汽車、大型連鎖零售店每一位顧客的智能手機、或配送車上每一個隔夜包裹所發 出的信息提出問題?怎樣才能讓更多的商人學會按統計概率而非偶然事件思考?由于《點球成金》(Moneyball)這本書及同名電影的緣故,其中涉及的方 法已經為球迷所熟知。但他們也將記得,這樣的方法是怎樣給一個組織帶來了天翻地覆的變化,并被競爭對手模仿。

從某些意義上講,它要求人們用一種全新的方式打量這個世界。

但優秀管理的原則也適用于大數據領域。在企業能夠利用大數據獲利之前,管理人員必須拒絕迷失在噪音當中,放任它掩蓋客戶、價值和執行這些基本力量。大數據的數量、速度和多樣性可能會顯得陌生,使人很容易在數字海嘯面前暈頭轉向。

所以,堅守扎實分析的基本原則總是至關重要。還要記住,數字可能會告訴你一些以前根本都不知道要問的事情,但數字從來不會自己說話。

作者是賓夕法尼亞大學(Penn State University)斯米爾商學院(Smeal College of Business)教授。

The Risks of Big Data for Companies

John Jordan

Big data. It's the latest IT buzzword, and it isn't hard to see why. The ability to parse more information, faster and deeper, is allowing companies, governments, researchers and others to understand the world in a way they could only dream about before.

All that is true. And yet . . .

It's also true that in our rush to embrace the possibilities of big data, we may be overlooking the challenges that big data poses -- including the way companies interpret the information, manage the politics of data and find the necessary talent to make sense of the flood of new information.

Big data, in other words, introduces high stakes to the data-analytics game. There's a greater potential for privacy invasion, greater financial exposure in fast-moving markets, greater potential for mistaking noise for true insight, and a greater risk of spending lots of money and time chasing poorly defined problems or opportunities.

Unless we understand, and deal with, these challenges, we risk turning all that data from something that has the potential to enhance our organizations into a diversion, an illusion or a paralyzing turf battle.

Let me be more specific about those challenges.

These Are Great Tools, but Who Has the Skills to Use Them?

Getting people qualified to work in such data-analytical tools as Hive, Pig, Cassandra, MongoDB or Hadoop is only the first layer of this onion. Few companies have in-house experts who can even make a business case to justify the cost of hiring big-data experts, let alone assess the quality of the applicants. Many managers also lack basic numeracy, so getting decision makers who can grasp more sophisticated statistical mechanics can be a challenge.

Complicating the matter, big-data tools aren't ready for prime time: They are evolving rapidly, aren't taught in most universities, have less-than-ideal vendor support and require levels of user flexibility that more mature tools don't. That makes finding the right people all the more crucial.

Here's another layer of the onion: For big data to be useful, programmers and analysts also must understand the basics of the industry they are programming for. Imagine, for instance, that data analysts at a pharmaceutical company see a spike in aspirin sales in January as measured by point-of-sale data in near real time. Aha, they say, flu season is intensifying. But before committing sales resources to a big campaign and increasing production, it's worth comparing sales patterns to past years. Maybe lots of people had hangovers after their New Year's Eve parties. If the analysts don't know the business, and the questions to ask, the company risks running down a lot of expensive dead ends.

One final layer is IT security. If it's true that many companies don't have the skills to work with big-data tools, they certainly don't yet have the skills to keep that data secure. As more information is gathered, that's more information that can be leaked or stolen.

Information Is Power. So a Lot of Information Is a Lot of Power.

Control over information is frequently thought to bring power within an organization. Clearly, whoever gets to make decisions about what gets measured in the big-data era will accumulate even greater power.

Moreover, information sharing across organizational boundaries, which is part of the nature of big data, can upset traditional power relationships.

Consider a company with a Canadian plant and a U.S. plant. Streaming data from sensors shows the Canadian plant is churning out engines with 97% reliability, while the U.S. plant's engines clock in at only 80%. Suddenly, the managers of the Canadian plant may see their star rise in the organization -- to the consternation of those in the U.S.

The bottom line might benefit, but the internal politics is something that executives must be prepared to manage.

Or consider that big data offers the opportunity to measure what previously was unmeasurable. If a large retailer can now more quickly and easily measure consumer reaction to various marketing campaigns -- whether it be a Super Bowl commercial, magazine coupon or newspaper ad -- the different stakeholders might find their relative positions within the organization change. They also may resent the social-media team for offering proof with click-through data of their ability (or inability) to move the revenue needle.

Such upheavals will be exacerbated by the fact that processes that traditionally take months to plan and execute might be assessed in minutes. People with years of experience with annual sales reviews often struggle with weekly or even daily revenue tallies. Those who ruled under the old way of doing things might find themselves falling behind in the new world.

Just Because Something Can Be Measured Doesn't Mean It Should Be Measured

Once people know that information is power, they may try to game the system -- to the detriment of the company.

Say a large company starts tracking website traffic as a function of Twitter mentions. The results are updated continuously on an executive dashboard.

The manager of one sales team previously had, with great success, generated most of its leads and eventual sales from trade shows and conferences. But once Twitter mentions become the key metric being measured, the manager changes the department's focus, declaring, 'We need to win the dashboard.' The result is that the department may indeed win the dashboard, but it leads to an unprofitable emphasis on website clicks and social-media traffic with unqualified leads rather than on successful events.

What Do We Do With All These Numbers?

Standard databases have been around for about 35 years, so a substantial body of experience makes these tools relatively easy to understand and use. Big data, by contrast, is just being invented, so the techniques for organizing and understanding the underlying meaning are still in their infancy.

What's more, it isn't easy for us to make sense of information at this scale. 'One, two, three, many' is how the security guru Bruce Schneier summarizes many people's math acumen. Spreadsheets, still the main tool for quantitative analysis in many companies, can't remotely scale to convey the number of cars on the road at a given moment in a particular city, or this week's federal spending on transportation projects.

Visualization can be extremely helpful with this kind of data, but the field is still immature, and its special language not widely understood.

The Challenge of Thinking Big

What does it mean to think at such a large scale? How do we learn to ask questions of the transmission of every car on the road in a metropolitan area, of the smartphone of every customer visiting a large retail chain, or of every overnight parcel on a delivery truck? How can more businesspeople learn to think probabilistically rather than anecdotally? Thanks to the book and movie, the Moneyball approach is by now well known among sports fans. But they'll also recall how that approach upended an organization and was copied by competitors.

In some ways, it requires a whole new way of looking at the world.

But also, the principles of good management extend to the domain of big data. Before businesses can profit from big data, managers must refuse to get lost in the noise that can obscure the basic forces represented by customers, value and execution. The volume, velocity and variety of big data can feel foreign, and make it easy to be dazzled by numerical tsunamis.

So it's always crucial to insist on the basics of sound analytical practice. And to remember: Numbers can tell you things you never even knew to ask. But they never speak for themselves.

Dr. Jordan is a professor at the Smeal College of Business at Penn State University
-------

 2013.3.10

When More Trumps Better

The flood of digital information now being collected on all of us means corporations can predict what we'll buy, police can forecast where crimes occur and more.


Back in 2010, when he was still chief executive of Google, GOOG -0.13% Eric Schmidt made an intriguing confession. "One day we had a conversation where we figured we could just try to predict the stock market," he told a conference in Abu Dhabi. "And then we decided it was illegal. So we stopped doing that." If you think Google is already ubiquitous, think again: Armed with the data it collects from Web searches, as well as from its online advertising business and even mobile devices, the company could enter many more industries.

While Google still balks at predicting the stock market, it already uses its search data to predict flu trends. Its online translation tool, though unlikely to satisfy most professional linguists, outperforms its competitors thanks to one key feature: It has been fed much more data. Having scanned millions of books, Google has also spawned an academic discipline with the clunky name of "culturomics": Tools like Google's Ngram Viewer let researchers understand the usage of words like "freedom" or "democracy" through the centuries.

Big Data

By Viktor Mayer-Schönberger and Kenneth Cukier
Houghton Mifflin Harcourt, 242 pages, $27


Enlarge Image Steve Von Worley/AggData
Mcdata analytics Each point on this map is colored by which hamburger chain has the most outlets closest. McDonald's, in black, predominates; the purple splotch over Texas reflects the more than 900 Sonic Drive-In locations in the state.

As Viktor Mayer-Schönberger and Kenneth Cukier argue in "Big Data," Google and other companies are beginning to discover that they can do far more than previously imagined with the data they've been collecting all these years. "The world of big data," the authors proclaim, "is poised to shake up everything from businesses and the sciences to healthcare, government, education, economics, the humanities, and every other aspect of society." It's a bold assertion but one they support with convincing evidence.

The authors make clear that "big data" is much more than a Silicon Valley buzzword, and their book brims with examples of data-assisted decision making in diverse industries, from travel and banking to journalism and gaming. Start-ups like ZestFinance (co-founded by a former chief information officer at Google) allow lenders to consider thousands of factors—for example, whether a loan applicant uses a prepaid cellphone—to extend short-term loans to people with a poor or nonexistent credit history. Geo-location companies like Sense Networks and Skyhook collect data supplied by mobile phones and other devices. It can be used to identify which areas of a city have the most bustling nightlife or, more disturbingly, to estimate how many protesters will turn up at demonstrations.
"Big Data" even features a few charming historical vignettes. The tale of Commodore Maury—a 19th-century big-data pioneer who, while working for the U.S. Navy, used ship logbooks to identify more efficient sea routes—is particularly engrossing. Maury designed a clever scheme that encouraged captains to regularly throw into the sea bottles that indicated their coordinates—to be picked up by other passing ships. This basic information-exchange scheme yielded superior seafaring charts that shortened long voyages by about a third.
Compare Maury's primitive methods to today's and you understand one reason data analysis has made a leap in the past few years: There is so much more of it. "Cars today are stuffed with chips, sensors and software," the authors note. So are phones. Sensors have gotten smaller and cheaper and can report more data from more sources; they can detect almost anything, from our heart rate to signs of wear and tear on bridges. Some sensors can even be attached to previously "dumb" objects, suddenly making them "smart" and allowing them to generate feedback.
Since data is cheap and ubiquitous, the authors say, we no longer need to worry about limited samples and incomplete data sets. Why not study the data in its entirety, without leaving anything out? Such comprehensiveness allows us to relax previous requirements for exactitude and accept data in all of its real-world messiness, which, curiously, can increase the quality of the final product. Thus, note the authors, "it isn't just that 'more trumps some,' but that . . . sometimes 'more trumps better.' "
One of the more revealing points made by Messrs. Mayer-Schönberger and Cukier is that, with so much data at our fingertips, we can abandon the pursuit of causal explanations and focus on correlations alone. "In a big-data world . . . we won't have to be fixated on causality; instead we can discover patterns and correlations in the data that offer us novel and invaluable insights," they write. "Big data is about what, not why."
There are many contexts where the "why" is indeed a luxury and the "what" is good enough. When Amazon deploys its sales data to spot books that are often bought together, the recommendation doesn't need to know why hundreds of customers who bought "War and Peace," for instance, also bought "The Idiot." Nor did Google need to know why sites linked to each other when it decided to use linking behavior to build a powerful search engine.
But just how far can this logic take us? Writing mostly for a business audience, the authors don't fully grapple with the implications of such an approach when it comes to, say, public administration and governance. Will ambitious structural reforms in public policy even be possible if we don't arrive at some basic causal explanation of why some parts of the system are broken in the first place? Take obesity. It's one thing for policy makers to attack the problem knowing that people who walk tend to be more fit. It's quite another to investigate why so few people walk. A policy maker satisfied with correlations might tackle obesity by giving everyone a pedometer or a smartphone with an app to help them track physical activity—never mind that there is nowhere to walk, except for the mall and the highway. A policy maker concerned with causality might invest in pavements and public spaces that would make walking possible. Substituting the "why" with the "what" doesn't just give us the same solutions faster—often it gives us different, potentially inferior solutions.
Fortunately, "Big Data" isn't just another cyber-utopian tome, and the final section of the book offers a critical look at some of the darker effects of recording and analyzing everything. ("Delete," Mr. Mayer-Schönberger's previous book, celebrated the virtues of forgetting in a world of databases and social networks.) The authors also discuss the challenges of maintaining a just legal system when crimes could be predicted before they happened, and relying too much on the seemingly neat solutions promised by big-data evangelism. "If Henry Ford had queried big-data algorithms for what his customers wanted, they would have replied 'a faster horse,' " the authors quip.
Alas, one must read to the end for these stimulating reflections; earlier chapters might have benefited from a more critical stance. The book's explicit business slant also occasionally mars the narrative, especially when the authors plunge into the jargon of Dilbert cartoons and Soviet propaganda posters. (Did you know that "digitization turbocharges datafication"?) But these shortcomings don't undermine the achievement of "Big Data": No other book offers such an accessible and balanced tour of the many benefits and downsides of our continuing infatuation with data.
—Mr. Morozov is the author of "To Save Everything, Click Here: The Folly
of Technological Solutionism."

A version of this article appeared March 9, 2013, on page C5 in the U.S. edition of The Wall Street Journal, with the headline: When More Trumps Better.

沒有留言:

網誌存檔