繼之前一篇討論過「分析師的工作 是用數據說故事」,這次再勾起我寫有關 Big Data 的,又是一些新聞上看到的報導。
在繼續談所謂大數據前,先說其實我不太喜歡用「大數據」這個名字的。或許說,我不太喜歡IT業界喜歡為每一樣東西安新名字,讓自己看起來專業一點的做法。簡單來說,「大數據」就是說用客觀科學的方法去處理數據,並且做統計 (Statistic) ,進而得到一些有用的資訊為結論 (Insights)。和之前不同的,只是因為現在數據量比以前更真實,更大量,而運算的成本更相宜,所以可以分析出來的知識理論上比以前更多更好。
所以,理論上,只要有足夠和合適關於自己生意的數據,再作分析和處理,是可以更了解自已的顧客的喜好,從而獲得更多生意。但理論,又是否成真的呢?
只要每一步正確及專業的處理,這些理論是真的,而且也是可行的。當中,色情業就是一個很好的例子,詳情請參看《你可以在色情行業裡,挖到了什麼驚人的「秘密大數據」?》。而且 Facebook 、 Google和 Amazon 也大量應用這些數據,開發出一個又一個出色的產品,讓使用者越發離不開她們。而我公司的做電子商貿的客戶中,也有一個專營歐美 Cosplay 服裝市場的客戶,也是用這個辦法,累積了個萬個每個月都會返單的客戶。
所以問題就是,如何透過科學化統計和分析,產生有用的知識,從而達到自己的目的。而一切,都是從科學化看待數據開始。
數據分析一個最重要的目的,就是了解事情發生的前因後果。所以,最終的分析,要達到變成一個故事,才算是完整。這裡,我們再看一個反面例子。這篇文章刊在 Unwire.pro 中,名為:「大數據分析成本只需120元?10分鐘即學懂BIG DATA!」
先不理標題,看看其中提及的一個案例:
先不理標題,看看其中提及的一個案例:
「有些人以為英文科要考得好,需要背誦很多英文生字,但其實根本不是。你可以試著去問任何一個坊間的補習天王,看他們誰可以答到你,哪一個英文生字出現最多?Be 的哪一個形態出現得最多?是過去式還是現在式?他們答不到,但我答得到!原來只要掌握好日常字庫的出現形態,比背誦大量生字更實際。這都是 Big Data 分析的力量。」黃俊彦說。這又是一個對數據分析的誤解,知道「那一個英文生字出現最多」,如何能得出結論是「原來只要掌握好日常字庫的出現形態,比背誦大量生字更實際」?「那一個英文生字出現最多」最多只能得出結論是「日常字庫出現得最多」,但為何更實際呢?假設更實際是指能考到更好的成績,一定要說得出個故事是為何掌握出現最多的生字,就能得到一個更好的成績,才能說是一個分析的結果。
舉例來說,「A」和「a」字,以及連接詞一定是其中出現得最多的字眼,但考過英文考試都知,知道這些字,是不能對你閱讀和寫作帶來任何有意義的優勢。更何況,題號也有「A」和「a」字呢!
看到這裡,先別被我嚇怕。其實只要抱持著客觀科學的心態對待數字,將數字進行統計,分析,而最終把結論能以故事形式說出來就是了。
就以上文中另一個案例做例子,問題是:「清楚僱主想找哪些技術專才,哪種技術之間的配合最受僱主歡迎,然後按此來編排教學計劃。」
(一) 僱主是比較貪心的,寫要求時把在工作上用的可能性極低的技能都會寫到要求上
(二) 僱主請人多是當下想要的,但全球現在主要流行的編程趨勢,通常要在兩三年後才成為香港僱主想要的,正好教學就是要這兩三年的時間,用 Search Trend 來做比對會比用現有職位需求更合適。
而從這個簡單的分析來說,我可以得到的結論是Java還是必學的語言,但可以的話也要盡快加入HTML5的教程,以及讓學生更了解 Responsive Web Design 的框架,因為後兩者的趨勢都是向上,證明全球對這兩方面的人材需求持續向好。
1. 《The Moneyball》
2. 《The signal and the noise》
這兩本書,會讓你更了解「大數據」,而且會讓你至少說起來比較專業。那些說甚麼120元成本,10分鐘學會大數據的文章,我真的只能當笑話看過算了。
希望這篇文章,能更好的讓大家了解數據分析是甚麼一回事。