網頁

2014年5月31日 星期六

大數據的意義 在於客觀統計和分析


繼之前一篇討論過「分析師的工作 是用數據說故事」,這次再勾起我寫有關 Big Data 的,又是一些新聞上看到的報導。

在繼續談所謂大數據前,先說其實我不太喜歡用「大數據」這個名字的。或許說,我不太喜歡IT業界喜歡為每一樣東西安新名字,讓自己看起來專業一點的做法。簡單來說,「大數據」就是說用客觀科學的方法去處理數據,並且做統計 (Statistic) ,進而得到一些有用的資訊為結論 (Insights)。和之前不同的,只是因為現在數據量比以前更真實,更大量,而運算的成本更相宜,所以可以分析出來的知識理論上比以前更多更好。

所以,理論上,只要有足夠和合適關於自己生意的數據,再作分析和處理,是可以更了解自已的顧客的喜好,從而獲得更多生意。但理論,又是否成真的呢?


只要每一步正確及專業的處理,這些理論是真的,而且也是可行的。當中,色情業就是一個很好的例子,詳情請參看《你可以在色情行業裡,挖到了什麼驚人的「秘密大數據」?》。而且 Facebook 、 Google和 Amazon 也大量應用這些數據,開發出一個又一個出色的產品,讓使用者越發離不開她們。而我公司的做電子商貿的客戶中,也有一個專營歐美 Cosplay 服裝市場的客戶,也是用這個辦法,累積了個萬個每個月都會返單的客戶。


所以問題就是,如何透過科學化統計和分析,產生有用的知識,從而達到自己的目的。而一切,都是從科學化看待數據開始。

數據分析一個最重要的目的,就是了解事情發生的前因後果。所以,最終的分析,要達到變成一個故事,才算是完整。這裡,我們再看一個反面例子。這篇文章刊在 Unwire.pro 中,名為:「大數據分析成本只需120元?10分鐘即學懂BIG DATA!

先不理標題,看看其中提及的一個案例:
「有些人以為英文科要考得好,需要背誦很多英文生字,但其實根本不是。你可以試著去問任何一個坊間的補習天王,看他們誰可以答到你,哪一個英文生字出現最多?Be 的哪一個形態出現得最多?是過去式還是現在式?他們答不到,但我答得到!原來只要掌握好日常字庫的出現形態,比背誦大量生字更實際。這都是 Big Data 分析的力量。」黃俊彦說。
這又是一個對數據分析的誤解,知道「那一個英文生字出現最多」,如何能得出結論是「原來只要掌握好日常字庫的出現形態,比背誦大量生字更實際」?「那一個英文生字出現最多」最多只能得出結論是「日常字庫出現得最多」,但為何更實際呢?假設更實際是指能考到更好的成績,一定要說得出個故事是為何掌握出現最多的生字,就能得到一個更好的成績,才能說是一個分析的結果

舉例來說,「A」和「a」字,以及連接詞一定是其中出現得最多的字眼,但考過英文考試都知,知道這些字,是不能對你閱讀和寫作帶來任何有意義的優勢。更何況,題號也有「A」和「a」字呢!

看到這裡,先別被我嚇怕。其實只要抱持著客觀科學的心態對待數字,將數字進行統計,分析,而最終把結論能以故事形式說出來就是了。

就以上文中另一個案例做例子,問題是:「清楚僱主想找哪些技術專才,哪種技術之間的配合最受僱主歡迎,然後按此來編排教學計劃。

不同於文章的方法,我會先用 Google Trend 把各種的語式語言和方法進行比較。不使用文中搜尋職位需求的原因有二:

(一) 僱主是比較貪心的,寫要求時把在工作上用的可能性極低的技能都會寫到要求上

(二) 僱主請人多是當下想要的,但全球現在主要流行的編程趨勢,通常要在兩三年後才成為香港僱主想要的,正好教學就是要這兩三年的時間,用 Search Trend 來做比對會比用現有職位需求更合適。

而從這個簡單的分析來說,我可以得到的結論是Java還是必學的語言,但可以的話也要盡快加入HTML5的教程,以及讓學生更了解 Responsive Web Design 的框架,因為後兩者的趨勢都是向上,證明全球對這兩方面的人材需求持續向好。

當然,這是個簡單的分析,但都是用了海量的數據。不信?可以看看Google一天有多少個search queries 再說吧!

想了解多點有關數據分析,我建議去看以下兩本書,
1. 《The Moneyball
2. 《The signal and the noise
這兩本書,會讓你更了解「大數據」,而且會讓你至少說起來比較專業。那些說甚麼120元成本,10分鐘學會大數據的文章,我真的只能當笑話看過算了。

希望這篇文章,能更好的讓大家了解數據分析是甚麼一回事。

2014年5月26日 星期一

Secret 一個可以幫助你管理情緒的App


Secret 是一款讓人以匿名方式分享心情和字句的應用 (iPhone / Android),宗旨是讓所有的焦點從人回歸到說話本身,讓你做回自己,誠實的說真心話。 這支 App 的功能,詳細解說按此觀看

我還想說的是,這支應用,還可以幫助你管理情緒。

這要從我最近看的書,Dr. Steve Peter 所著的 The Chimp Paradox: The Mind Management Programme to Help You Achieve Success, Confidence and Happiness 一書所說起了。情緒,是用來管理,而不是控制的。因為人的情緒威力,是理性的五倍。所以,理性是控制不了情緒的,但可以管理得了情緒。

而管理情緒有三個方法,其中一個方法是 Exercise and Boxing,簡單來說,就是讓情緒發洩和用真相和對話平復情緒。這有點像我對付我的女兒般,當她歇斯底里時,我會帶她到一邊讓她放聲哭鬧,到她哭累了,再鎮靜她的情緒和說理,同出一轍。而這也是處理情緒和心情最徹底的方法,因為是你的理性把情緒真正拉到同一個頻道上。

但作為一個成年人,總不可以像小孩般哭鬧吧!有些人會嘗試用意志力去控制情緒,但正如之前所說,情緒的威力是理性的五倍,單靠意志力來控制他,就像我的女兒和我拗手瓜般。所以,有很多人在憤怒時會去喝水,心情不好時會聽歌等等。而 Secret 這個 App 最好的地方,是當你需要發洩時,擁有一個匿名的渠道,把這些不能在人前說的話說出來。對我來說,當我放縱我的情緒在這個 App 中說出來,再找最好的圖片表達出來後,情緒都差不多宣洩完了。這時再和我的情緒對話,會更能讓我的情緒和理性同步,作出應有的反應去處理事情。

另外,說一些題外話,也算是一些提醒的話兒。所有國際有點名氣的應用,內地都有一個複製版的。而 Secret 的內地版叫做秘密,但我不建議用。這個 App ,最大的用處是匿名說真心話。秘密,不流行又怕她會倒閉,流行了就沒有秘密,還要怕不知那天要秋後算帳。

在這個高度透明化的世代,有時,我們就是需要一個匿名的身份作情緒的排洩口,既想其他人能聽聽想說的真心話,又能去掉說話所帶來的各種「關心」,好讓我們能跟情緒自我溝通。而 Secret 這個 App,正好能填補這個缺口。

2014年5月18日 星期日

接受自己軟弱的一面 才能走得更遠


早前分享了這段影片,卻意外地發現回響不如預期。我覺得十分可惜,因為她讓我擴展了對自己和人的心理的觀點,同時間也影響了我對工作、家庭和人際關係的一些看法。

這是一個關於人性中的脆弱、羞恥的感覺,和愛與被愛、接納和被接納的關連。

我不會在這裡寫下所有内容,因為我希望大家親自去觀看影片,用心去感受講者的演講,從而有所得著。

而看完影片後,我方明白到想被愛和被接納,首先就要去愛和接納其他人。而懂得這樣做,首先就要懂得愛和接納自己的一切,包括自己軟弱,羞恥的感覺,及自身的不完美的一面。

面對這一切,是會感覺不好,有些人會選擇去麻庳這種感覺。整容市場可以做得這麽大,都是因為總有人覺得樣子不夠標緻,身形不夠完美所致。但感覺是不能局部麻痹,當選擇麻痹時,是會連喜悦的感覺都會被麻痹掉的。

所以,有勇氣的人,不時了無所懼,只是承認了自己的不完美,和不完美的一面共存,全心全意去投入生活而已。讓我意識到,將來教Aki時,一定要灌輸我們所處的世界,包括她自己都是不完美的,所以全部人都要全心全意,投入生活。而且她儘管不完美,她還是值得被愛和被接納,其他人也是,這個世界也是。

我花了十五年才明白,花了最後這18分鐘看完影片才整理和內化的這份體會,希望大家都能接受。人人都是這樣想和做,世界一定會是一個更美好的地方去生活。

如要看中文字幕版本,請按此連結觀看。

2014年5月11日 星期日

在 Poker hold’em 枱上的學習

事先聲明,這篇貼文不是要鼓吹賭博,我自己也沒有花現錢在賭枱上。我只是用虛擬現錢在網路上玩上兩手,順道實踐用 Probability 看待不確定性而已。


好了,話說我開始玩撲克,源於想模擬實踐《The Signal and The Noise》一書中提及的 Probablistic Thinking。這種思考模式,就算當初的觀念和事實是絕對相反,但在客觀認證所出現的事件後,最終都能認清事實。而上網玩 Zynga 出的 Poker hold’em ,是我暫時見到其中一個最有效緞練這種思维的方法。原因如下:

1、遊戲本身對訓練這種思維的適合性

規則大家可以按此觀察,最重要是過程中透過已知的觀念(你手上的牌,枱面上的牌),一件件出現的事件(其他玩家推出來的賭注),和一些未到終局都未知的事實(其他玩家手上的牌),緞練我的 Probablistic Thinking,從而做出我的決定。而一個個遊戲結束時,我就能知道我做的那個決定的質素,從而進行檢討和優化。

2、進度明快

其實要做到這個訓練,還可以在股票市場等地方練習。但比起股票市場每局數以日計方能得知每個決定的結果,牌局每一局只是十分鐘的事,好快我就知每一個決定的結果了,從而加快學習進度。

3、運用虛擬貨幣,減低學習成本

用真錢玩,學習的成本會大幅上漲。

4、全球網絡的牌友

對社交型遊戲有認識的朋友,一定懂得Zynga。在遊戲中,我能和全球的真人一起玩撲克,應對不同文化的人,讓我可以在決策上取長補短。

5、跨平台學習

讓我能夠隨時隨地,都可以利用我的零碎時間,透過手機 (Android / iPhone)、平板 (iPad) 和桌機進行學習

與此同時,我正在看 Dr. Peter Steve 寫的 《The Chimp Paradox》書中指出,人的思想是由腦的兩個部份共同控制,一是「獸性」(Chimp,黑猩猩,或可意譯為「感性」),另一是「人性」(Human,即是「理性」)。「獸性」包括猜疑、好勝、要面子、慾念等,是我們不快樂和不安之源。普通人都會明白這道理,問題是「獸性」的反應較「人性」快幾倍,力量也強大得多,「獸性」若被喚醒,會減少血液輸往腦部掌管「人性」部份的流量,減低「人性」思維功能。我們也不能憑意志力壓抑「獸性」,只能學習管理和約束「它」。

而在玩撲克的過程中,另一個收獲是我切實經驗了上述所提及的這一切。通常,最容易讓我輸大錢的,不是手上的牌面差的時候。反之,是手上的牌面不錯的時候,才最易輸掉一切。而事後分析,都是我的獸性寄劫了我的思考和決策。這個過程,讓我更了解自己的限制,和用方法去和這個限制共存。

而總結整個學習過程,到目前為止,我學到了以下東西。

1、問題賭徒的人是知道自己的問題,但由於沒有方法去控制自己的獸性,如貪婪、好勝的慾念,所以一次又一次的重覆犯錯。所以,最後能從牌局帶錢走多過賠錢走的,都是能用方法讓人性克服自己的獸性的人。

2、讓我用另一個角度,明白了了金融市場的運作。跟據《The signal and the noise》一書中述,股票的短線走勢,比牌局是更難預測的。因為牌局只是52張牌組成的各種可能性,但都已經超越了人腦所能運算的。股票短線的升跌,組成的因素,當中的真假,組合成的結局,都復雜得連經濟學家都弄不清。但長線大體來說,都是可預測的。牌局,是個零和扣去賭場回扣的遊戲;股市,是大概等於通脹扣去交易和管理費的遊戲。要獲利,大家都要學懂止賺止蝕,也要有方法去讓人性克服獸性。

3、現在香港都濫用了「理性」這個詞語。當我認識和實踐各種理性思考的操作時,你會發現現在很易聽到的說辭,其實真實代表的都不是那回事,例如:
  • 沉默的大多數都是理性的 - 真實是沉默的大多數都是不管事的
  • 理性無用,所以要怎樣怎樣的,之後還批判「理性」的大多數 - 聽到這些更該警惕,說的人及後的行為很多時都只是打算用獸性取代人性去做事而已,而被批判的根本只是不管事的人

4、管理不確定性,用或然率會比較好。因為,這首先代表認清和承認自己不是全知全能的。在這樣的背景下,才能更好的讓自己放下情緒,利用理性去做決策,從而提高預測和決策的質量。

5、真正反映真實的,絕不是一些大家容易記得的口號。口號,只是比較容易傳遞和吸收訊息的方法。以下例子,會讓大家更明白我在說啥甚麼的:
  • 沒有投資者能做得比股市平均價好。
  • 沒有投資者能長時間做得比股市平均價好。
  • 在承受同一風險下,沒有投資者能長時間做得比股市平均價好。
  • 在承受同一風險下,沒有投資者能在扣除交易成本下長時間做得比股市平均價好。
  • 在承受同一風險下,沒有投資者能在扣除交易成本下長時間做得比股市平均價好,除非他有內幕消息。
  • 在承受同一風險下,少數投資者能在扣除交易成本下長時間做得比股市平均價好,除非他有內幕消息。
  • 很難說有多少投資者能長線在股市上的表現做得比均價好,但我們知道在承受同一水平風險下,因交易本身並沒有任何額外的生產,還要扣除交易成本,所以除非有內幕消息,否則最好的投資還是買指數基金。
最能說明狀況的,是最後一句聲明;但最能入腦的,則是第一句聲明。只是,對初階投資者來說,第一句已經是足夠好的聲明而已。

勤有功,戲其實也可以有益的。因為人在遊戲中體驗過後,往往都能吸引和學到更多。
Related Posts Plugin for WordPress, Blogger...