網頁

顯示具有 Open Data 標籤的文章。 顯示所有文章
顯示具有 Open Data 標籤的文章。 顯示所有文章

2015年2月19日 星期四

馬去羊來 恭賀新禧


新一年,新氣象,先祝大家羊年行大運,心想事成,身體健康,生意興隆。

同時,大家也知道,今年是羊年。但大家又是否知道,羊年,是指那一種羊呢?英文,又該成是
  • Year of Sheep ?
  • Year of Goat ?
  • Year of Ram ?


Google的 Ngram Viewer,利用 Google圖書資料庫查到某個關鍵字在書中出現嘅頻率,可以看到每個年代書籍流行的話題,是一個做文化研究嘅好工具!而很明顯,Year of the Sheep是在大部份的年代勝出的。 根據結果,看來用 Year of Sheep 是大家的選擇。

其實,以我所認知,中文的「羊」,其實泛指上述三種羊,我比較認同以下《紐約每日新聞》這個譯法:


Year of ‘Any Ruminant Horned Animal’ ,即「反芻有角動物年」來形容今年。

其實,怎叫也好,最著重的,都是新年的意義和 ....... 紅包!

祝大家年年有餘,我們今年初五啟市。

2014年5月31日 星期六

大數據的意義 在於客觀統計和分析


繼之前一篇討論過「分析師的工作 是用數據說故事」,這次再勾起我寫有關 Big Data 的,又是一些新聞上看到的報導。

在繼續談所謂大數據前,先說其實我不太喜歡用「大數據」這個名字的。或許說,我不太喜歡IT業界喜歡為每一樣東西安新名字,讓自己看起來專業一點的做法。簡單來說,「大數據」就是說用客觀科學的方法去處理數據,並且做統計 (Statistic) ,進而得到一些有用的資訊為結論 (Insights)。和之前不同的,只是因為現在數據量比以前更真實,更大量,而運算的成本更相宜,所以可以分析出來的知識理論上比以前更多更好。

所以,理論上,只要有足夠和合適關於自己生意的數據,再作分析和處理,是可以更了解自已的顧客的喜好,從而獲得更多生意。但理論,又是否成真的呢?


只要每一步正確及專業的處理,這些理論是真的,而且也是可行的。當中,色情業就是一個很好的例子,詳情請參看《你可以在色情行業裡,挖到了什麼驚人的「秘密大數據」?》。而且 Facebook 、 Google和 Amazon 也大量應用這些數據,開發出一個又一個出色的產品,讓使用者越發離不開她們。而我公司的做電子商貿的客戶中,也有一個專營歐美 Cosplay 服裝市場的客戶,也是用這個辦法,累積了個萬個每個月都會返單的客戶。


所以問題就是,如何透過科學化統計和分析,產生有用的知識,從而達到自己的目的。而一切,都是從科學化看待數據開始。

數據分析一個最重要的目的,就是了解事情發生的前因後果。所以,最終的分析,要達到變成一個故事,才算是完整。這裡,我們再看一個反面例子。這篇文章刊在 Unwire.pro 中,名為:「大數據分析成本只需120元?10分鐘即學懂BIG DATA!

先不理標題,看看其中提及的一個案例:
「有些人以為英文科要考得好,需要背誦很多英文生字,但其實根本不是。你可以試著去問任何一個坊間的補習天王,看他們誰可以答到你,哪一個英文生字出現最多?Be 的哪一個形態出現得最多?是過去式還是現在式?他們答不到,但我答得到!原來只要掌握好日常字庫的出現形態,比背誦大量生字更實際。這都是 Big Data 分析的力量。」黃俊彦說。
這又是一個對數據分析的誤解,知道「那一個英文生字出現最多」,如何能得出結論是「原來只要掌握好日常字庫的出現形態,比背誦大量生字更實際」?「那一個英文生字出現最多」最多只能得出結論是「日常字庫出現得最多」,但為何更實際呢?假設更實際是指能考到更好的成績,一定要說得出個故事是為何掌握出現最多的生字,就能得到一個更好的成績,才能說是一個分析的結果

舉例來說,「A」和「a」字,以及連接詞一定是其中出現得最多的字眼,但考過英文考試都知,知道這些字,是不能對你閱讀和寫作帶來任何有意義的優勢。更何況,題號也有「A」和「a」字呢!

看到這裡,先別被我嚇怕。其實只要抱持著客觀科學的心態對待數字,將數字進行統計,分析,而最終把結論能以故事形式說出來就是了。

就以上文中另一個案例做例子,問題是:「清楚僱主想找哪些技術專才,哪種技術之間的配合最受僱主歡迎,然後按此來編排教學計劃。

不同於文章的方法,我會先用 Google Trend 把各種的語式語言和方法進行比較。不使用文中搜尋職位需求的原因有二:

(一) 僱主是比較貪心的,寫要求時把在工作上用的可能性極低的技能都會寫到要求上

(二) 僱主請人多是當下想要的,但全球現在主要流行的編程趨勢,通常要在兩三年後才成為香港僱主想要的,正好教學就是要這兩三年的時間,用 Search Trend 來做比對會比用現有職位需求更合適。

而從這個簡單的分析來說,我可以得到的結論是Java還是必學的語言,但可以的話也要盡快加入HTML5的教程,以及讓學生更了解 Responsive Web Design 的框架,因為後兩者的趨勢都是向上,證明全球對這兩方面的人材需求持續向好。

當然,這是個簡單的分析,但都是用了海量的數據。不信?可以看看Google一天有多少個search queries 再說吧!

想了解多點有關數據分析,我建議去看以下兩本書,
1. 《The Moneyball
2. 《The signal and the noise
這兩本書,會讓你更了解「大數據」,而且會讓你至少說起來比較專業。那些說甚麼120元成本,10分鐘學會大數據的文章,我真的只能當笑話看過算了。

希望這篇文章,能更好的讓大家了解數據分析是甚麼一回事。

2014年3月19日 星期三

分析師的工作 是用數據說故事

很久沒這麼有靈感,可以在短時間寫那麼多文章。有一些是之前有想法記下草稿要寫的,有的就好像這篇文章般,看了一個話題幾篇文章而有感而發的。最先吸引我眼球的,就是在新聞上看到一篇文章 《IT人才荒 高層年薪達150萬》。這篇文章用的圖片,是一個在數據中心工作的工作人員。而最吸引我眼球的,就是 IT 人才荒我一早知,但用150萬港元請的高層,以我理解在香港的公司,不是帶生意來的人是不會有這個年薪的。要知道,IT人的薪酬高低,絕對會影響我的業務的議價能力及成本控制。

看過內文後,其中以下的一段文字,印證我的看法是沒錯的。
中原人力資源顧問有限公司董事總經理周綺萍指出,企業愈來愈重視CTO及CIO的職位,因為近年經濟尚未明朗,擅於分析市場數據的CTO、CIO,有助公司制定政策,加上社交平台、手機應用程式近年愈來愈盛行,公司為了搶攻市場,亟需借助相關人才,以研究有關數據。
這類人材,根本就不是純粹的 IT 人了。首先,忘記了甚麼 CTO 或 CIO 的名詞吧!要知道,很多掛著財務顧問的職位,說穿了都是銷售員,牌頭一早只是一個名字而已。這個人的工作,就像上圖左手邊的人一樣,拿著數據向右手邊的人說故事。

也讓我說說故事,隨著科技的進步,我們現在進入了這個大數據年代。人類這十多年間,數據資料的積累量,已佔了人類文明所產生的資料量達到 90% 了。這解決了以往一個問題,就是數據量不足以做成了預測上的誤差。只是,這龐大的資料量,也造就另一個問題,就是這些數據太「嘈吵」了。所以,這急需有人能從這些數據中找到甚麼東西是真正的知識,以及把這些知識演換成故事,讓其他人能理解的人。以下這段影片,很好地說明這是究竟是甚麼工作了。


這是一個全新的工作,十分有意義的工作。這些人做得出色的,出名的我當下想到兩個:
  1. Nate Sliver - 成功預測美國多次選舉結果,也是著名追蹤和預測棒球比賽系統 PECOTA 的創辦人,著作有《The Signal and The Noise》(中文譯左《精準預測》),並曾受邀在 Google 總部演講有關大數據和分析處理數據等題目。
  2. Billy Beane - 熱賣著作《Moneyball》中的主角,首位因把數據分析帶進棒球界的 General Manager,成功帶領 MLB 第二低的球費的 Oakland Athletics 在千禧年後多次成為西岸冠軍。而他的經營理念更給 Fenway Sports Group 模彷,帶到另一隊 MLB 棒球隊 波士頓紅襪隊,英超足球隊 Liverpool FC 中。
而沒那麼出名,甚至是沒那麼出色的,現在很多都在為人類做各種預測,上至在聯儲局預測經濟,至預測天氣,研究地震等等。而且在 Google 、Amazon、Apple工作的有一大堆,可以說,均是全球都受歡迎的人材。

過往,這類工作,光是資料搜集和製圖表,已經是一門生意來了。而有用過的朋友都會知道,這些市場調查服務本身都所費不菲。幸好,現在數據隨處都是,但要好這工作,都先要有計劃的,協調程式員編程去收集這些資訊,再要有做統計的找出知識,最後再將這些知識變成故事,策動其他人執行變成機構的業績。所以,能做這些 CTO / CIO 的人材,說實在全球難求。如果,150萬港元的年薪能找到一個,借錢我都會請,最不濟轉租其能力給外國的企業,都肯定是有殺冇賠的生意來。

換言之,如果閣下本身對數字 (尤其是統計學) 不感冒,又喜歡市場學,懂得一點點怎去編寫程式,甚至是喜歡銷售的話,其實這代表著一個機會。

這是一個資訊爆炸的年代,我們有很多的訊息,也有很多的噪音,就是欠了一些人,告訴我們這是怎麼的一回事。

2014年3月13日 星期四

數據開源 讓使用者更能專注於數據分析

近日隨著大數據的話題,在 IT 業界越來越盛行,而且越來越多人都可能會趁勢炒概念。而我之前都透過以下兩篇閱讀相關書籍的撰文,談過大數據以及統計分析應用的一些話題。


而現在所說的開放數據,簡單來說,就是把公營機構的數據變得能讓機械讀取和進行計算。這樣,就能方便的用電腦製作易看易懂的 Infographic,從而引發更多討論,和對物事有更深入的認識,並讓人類能更有效去管理社會。

而除此以外,其實商業和個人也可以將公營機構的數據,結合自己的數據、業務或興趣,整理和自行分析,去解答例如旅行人數和奶粉銷量比對等等...


也許讓我再舉一個更具體的例子給大家了解吧!以運動數據為例子,運動數據在開放數據這路上,可算是先鋒了。其中如 OPTA 這類有大型專業運動數據的公司,都會把其 API 開放給個人使用,和賣給商務使用的。他們會提供接口,讓使用者能自行編程實時運用其數據進行分析。而這個模式,讓球隊、球探、領隊,甚至是博彩業,都能專注進行其分析,好做好他們的業務。


而其中我覺得蠻有趣的例子,就是像 Squawka 一樣,把在 OPTA 的數據,轉換成易讀的圖表,並圍繞著這些建立一個談論和分析足球的社交網絡。如沒有 OPTA 的開放數據,相信這類平台的誕生會變得不可能了。

所以,數據開源的運動,除了透過共享製造協同效應外,也能衍生出不同的商業模式之創新,帶來不同的機遇。

申延閱讀:MaD 2014 - Mart VAN DE VEN 開放數據增加政府透明度的願景 (共兩部份)





Related Posts Plugin for WordPress, Blogger...