網頁

顯示具有 Statistics 標籤的文章。 顯示所有文章
顯示具有 Statistics 標籤的文章。 顯示所有文章

2015年1月10日 星期六

大數據分析 藏在資訊裡的錢


猶太人經典,《塔木德》中有一句寫道,「即使是風,也要嗅一嗅它的味道,你就可以知道它的來歷。」

自古以來,資訊和情報,本身就能讓商人早一步掌握情況,從而做好準備去把握機會。只是,有這個資訊網的同時,如何以運用這些情報,理解這些情報,也是一個關鍵。

在一個人人都談大數據的年代,我們的「資訊」已經夠多了。但同時間,當中的「噪音」也有很多。所以,在這些海量的資訊(或稱之為數據)中找出有用的情報,本身也是個現今真正比拼的地方。

在互聯網世代,要突圍而出,要贏,本身就要綜合速度和準備功夫。

贏 = 速度 + 準備功夫

資訊速度本身的比拼,經千禧年科網股一役,就算有再大投資,相差的都只是以秒計,分別不會再有太大。再比的,就是準備功夫,數據分析了。

所以,在大數據年代,資訊掌握固然重要。而現在要比的,速度本身已是基本面,更重要是如何有效運用資訊,做好分析,把資訊以最快速度變成真正有用的情報。

數據重要,資訊也很重要,但最終情報才是目標和結果。

伸延閱讀:

2014年5月31日 星期六

大數據的意義 在於客觀統計和分析


繼之前一篇討論過「分析師的工作 是用數據說故事」,這次再勾起我寫有關 Big Data 的,又是一些新聞上看到的報導。

在繼續談所謂大數據前,先說其實我不太喜歡用「大數據」這個名字的。或許說,我不太喜歡IT業界喜歡為每一樣東西安新名字,讓自己看起來專業一點的做法。簡單來說,「大數據」就是說用客觀科學的方法去處理數據,並且做統計 (Statistic) ,進而得到一些有用的資訊為結論 (Insights)。和之前不同的,只是因為現在數據量比以前更真實,更大量,而運算的成本更相宜,所以可以分析出來的知識理論上比以前更多更好。

所以,理論上,只要有足夠和合適關於自己生意的數據,再作分析和處理,是可以更了解自已的顧客的喜好,從而獲得更多生意。但理論,又是否成真的呢?


只要每一步正確及專業的處理,這些理論是真的,而且也是可行的。當中,色情業就是一個很好的例子,詳情請參看《你可以在色情行業裡,挖到了什麼驚人的「秘密大數據」?》。而且 Facebook 、 Google和 Amazon 也大量應用這些數據,開發出一個又一個出色的產品,讓使用者越發離不開她們。而我公司的做電子商貿的客戶中,也有一個專營歐美 Cosplay 服裝市場的客戶,也是用這個辦法,累積了個萬個每個月都會返單的客戶。


所以問題就是,如何透過科學化統計和分析,產生有用的知識,從而達到自己的目的。而一切,都是從科學化看待數據開始。

數據分析一個最重要的目的,就是了解事情發生的前因後果。所以,最終的分析,要達到變成一個故事,才算是完整。這裡,我們再看一個反面例子。這篇文章刊在 Unwire.pro 中,名為:「大數據分析成本只需120元?10分鐘即學懂BIG DATA!

先不理標題,看看其中提及的一個案例:
「有些人以為英文科要考得好,需要背誦很多英文生字,但其實根本不是。你可以試著去問任何一個坊間的補習天王,看他們誰可以答到你,哪一個英文生字出現最多?Be 的哪一個形態出現得最多?是過去式還是現在式?他們答不到,但我答得到!原來只要掌握好日常字庫的出現形態,比背誦大量生字更實際。這都是 Big Data 分析的力量。」黃俊彦說。
這又是一個對數據分析的誤解,知道「那一個英文生字出現最多」,如何能得出結論是「原來只要掌握好日常字庫的出現形態,比背誦大量生字更實際」?「那一個英文生字出現最多」最多只能得出結論是「日常字庫出現得最多」,但為何更實際呢?假設更實際是指能考到更好的成績,一定要說得出個故事是為何掌握出現最多的生字,就能得到一個更好的成績,才能說是一個分析的結果

舉例來說,「A」和「a」字,以及連接詞一定是其中出現得最多的字眼,但考過英文考試都知,知道這些字,是不能對你閱讀和寫作帶來任何有意義的優勢。更何況,題號也有「A」和「a」字呢!

看到這裡,先別被我嚇怕。其實只要抱持著客觀科學的心態對待數字,將數字進行統計,分析,而最終把結論能以故事形式說出來就是了。

就以上文中另一個案例做例子,問題是:「清楚僱主想找哪些技術專才,哪種技術之間的配合最受僱主歡迎,然後按此來編排教學計劃。

不同於文章的方法,我會先用 Google Trend 把各種的語式語言和方法進行比較。不使用文中搜尋職位需求的原因有二:

(一) 僱主是比較貪心的,寫要求時把在工作上用的可能性極低的技能都會寫到要求上

(二) 僱主請人多是當下想要的,但全球現在主要流行的編程趨勢,通常要在兩三年後才成為香港僱主想要的,正好教學就是要這兩三年的時間,用 Search Trend 來做比對會比用現有職位需求更合適。

而從這個簡單的分析來說,我可以得到的結論是Java還是必學的語言,但可以的話也要盡快加入HTML5的教程,以及讓學生更了解 Responsive Web Design 的框架,因為後兩者的趨勢都是向上,證明全球對這兩方面的人材需求持續向好。

當然,這是個簡單的分析,但都是用了海量的數據。不信?可以看看Google一天有多少個search queries 再說吧!

想了解多點有關數據分析,我建議去看以下兩本書,
1. 《The Moneyball
2. 《The signal and the noise
這兩本書,會讓你更了解「大數據」,而且會讓你至少說起來比較專業。那些說甚麼120元成本,10分鐘學會大數據的文章,我真的只能當笑話看過算了。

希望這篇文章,能更好的讓大家了解數據分析是甚麼一回事。

2014年3月13日 星期四

數據開源 讓使用者更能專注於數據分析

近日隨著大數據的話題,在 IT 業界越來越盛行,而且越來越多人都可能會趁勢炒概念。而我之前都透過以下兩篇閱讀相關書籍的撰文,談過大數據以及統計分析應用的一些話題。


而現在所說的開放數據,簡單來說,就是把公營機構的數據變得能讓機械讀取和進行計算。這樣,就能方便的用電腦製作易看易懂的 Infographic,從而引發更多討論,和對物事有更深入的認識,並讓人類能更有效去管理社會。

而除此以外,其實商業和個人也可以將公營機構的數據,結合自己的數據、業務或興趣,整理和自行分析,去解答例如旅行人數和奶粉銷量比對等等...


也許讓我再舉一個更具體的例子給大家了解吧!以運動數據為例子,運動數據在開放數據這路上,可算是先鋒了。其中如 OPTA 這類有大型專業運動數據的公司,都會把其 API 開放給個人使用,和賣給商務使用的。他們會提供接口,讓使用者能自行編程實時運用其數據進行分析。而這個模式,讓球隊、球探、領隊,甚至是博彩業,都能專注進行其分析,好做好他們的業務。


而其中我覺得蠻有趣的例子,就是像 Squawka 一樣,把在 OPTA 的數據,轉換成易讀的圖表,並圍繞著這些建立一個談論和分析足球的社交網絡。如沒有 OPTA 的開放數據,相信這類平台的誕生會變得不可能了。

所以,數據開源的運動,除了透過共享製造協同效應外,也能衍生出不同的商業模式之創新,帶來不同的機遇。

申延閱讀:MaD 2014 - Mart VAN DE VEN 開放數據增加政府透明度的願景 (共兩部份)





Related Posts Plugin for WordPress, Blogger...