誠摯地寄望主辦單位,對這個問題,不管賽前賽後,能提出令人信服的說明。只是恐怕會因為擔心漏氣,或牽涉商業機密之類理由,終究留下一團迷霧。這裡先按我自己的想法加以揣測評論,反正不是官網,看的人有限,自留心證就好。百傑賽官網有人不斷以公開羞辱為手段,打擊其他參賽者。當然亂槍打鳥,偶然中的也是有的;不過拿人家文章裡塞一些亂七八糟關鍵字大肆譏評,我實在忍不住好笑。官網對此事的答覆,同樣不著邊際糊里糊塗,什麼「每個關鍵字只計算一次」。問題根本不在那裡。真正的問題是:「關鍵字」和所謂「專業力」的關係,究竟在那裡?更進一步說,主辦單位所謂的「專業力」,具體定義到底是什麼?
接觸S Rank之初,直覺想到的,就是Google的Page Rank。Page Rank是用來評定搜尋排名的專利技術,也是Google打下「精確搜尋」名聲的利器。簡單來說,它根據若干數據,決定任一使用者輸入不特定關鍵字之後,搜尋結果的輸出順序;目的是讓愈符合使用者需求的網頁,出現在愈前面的位置。
這項技術的方法雖然公開,但計算公式一直保密。特別是當Google開放AdSense,讓展示廣告的網站經營者共享利潤之後,就有數不清的網站利用各種手段,爭取Google搜尋較前的排名,以便提高曝光率,賺取更多收入。這種扭曲Page Rank排名的方法,美其名曰「網站優化(SEO)」,直接打擊Google「精確搜尋」的信譽,影響廣告商投注意願,當然無法容忍。因此Page Rank必須多方調校,不斷與SEO較勁,消弭故意扭曲,才能維持Google在搜尋引擎界的令名。
S Rank的幾個力,看得出模仿Page Rank的痕跡。只不過土豆電腦的能耐,無法和世界級的搜尋引擎相比,於是想出利用臉書來計數,以便在預算內完成任務。除了專業力之外,其他三力不無道理。撇開人氣能否代表優質,這種屬於價值觀層次的問題,純就是否符合比賽要求來看:點閱率高,讚和分享的次數高,表示人氣也高,算是合理。
專業力則不然。依官網提示,專業力的分數,依文章中關鍵字多寡而定。我們不清楚官方究竟如何計算這項分數,但憑直覺的基本邏輯判斷,就難以信服這種評分方式。記得開賽之初有人質疑:主辦單位的資料庫裡,有多少關鍵字?不在資料庫裡的關鍵字,是否不能計分?我覺得這問題正中要害,也是整個「專業力」評分,令人莫名其妙的關鍵。
回到Page Rank。關鍵字是Google搜尋的重心,也是Page Rank的計分重點之一。對的關鍵字,會提昇Page Rank排名。很多SEO手段都圍著關鍵字打轉,包括灌入大量無意義詞彙在內。然而要注意的是,Page Rank是根據使用者輸入的關鍵字,所產生的動態回應,而不是事先有一個排名在那裡,出現某個關鍵字才拿來套。所謂關鍵字,是對使用者而言;Google的資料庫,並沒有特定關鍵字,而是根據使用者輸入做出篩選。
舉例來說,我想到張家界自助旅行,於是搜尋「張家界、旅遊、住宿、交通資訊」,其中「旅遊、住宿、交通資訊」各有八百萬到一千萬筆資料,「張家界」只有一萬筆,那麼誰的Page Rank最高?我想任何人都不難判斷,「張家界」應該擺在前面。那才是我要找的啊!關鍵字出現筆數愈少,結果才愈精準,Page Rank應該高才對。同樣含有「張家界」的一萬筆,再依出現次數及位置來評價。後者例如:大標題重於小標題,然後是粗斜體內文,最後是一般內文、註釋等。這樣排出來的順序,才會符合使用者期待。
「旅遊、住宿、交通資訊」這種一般、空泛的字眼,充其量只能用來把美食、親子類篩除過濾掉,對旅遊類本身的專業度而言,可說一點價值都沒有。假設我寫一篇張家界遊記,賣力介紹自然風光、人文背景,甚至與電影「阿凡達」的關係,卻沒有一個字出現在土豆電腦的資料庫裡,專業力可能因此很低,甚至趨近於零。這不怪異嗎?
所以,怎能怪參賽者,往文章裡灑一些連他自己都感到厭惡的土豆呢?肚臍眼想都知道,土豆電腦的資料庫,不可能有無限多的關鍵字,還要逐一權衡輕重,來為參賽者品頭論足。重點不在它有多少關鍵字,而在它漏掉多少。回到那個命中要害的問題:不在資料庫裡的關鍵字,難道就不能計分啦?這種評分方式,有根本的邏輯問題。我實在很好奇,主辦單位究竟如何設想,以及這種評分結果,到底代表什麼意義?但願終有一天能得到解答。
P.S.
也有一種可能手段,雖然不確定土豆電腦是不是、或能不能這樣做,但符合主辦單位以人氣為出發點的評選方式。舉例說,先經由某種方式(流量分析,也許),評定旅遊類前一百或一千名的人氣網站,然後把這些網站的所有內容抓下來分析,得到一個附權重的關鍵字表。再拿這個關鍵字表,去比對參賽者的文章,得到分數愈高的,內容就愈接近那一百或一千大網站,因此也可能是有潛力的高人氣候選人。
這種做法可以把評定個別關鍵字是否專業的勞什子工夫,轉移到判斷文章像不像某些專業網站。當然仍不免有盲點,譬如相似度高,可能只是文抄公罷了,未必怎麼專業;愈獨特的文章,相似度愈低,卻可能被評為不夠專業。然而倘若樣本數夠多,也經過適當調校,總比讓人胡亂填塞莫名其妙的關鍵字,要來得有說服力些。
這招不是我的發明,是若干年前,聽一位搞資料採集(Data Mining)的朋友說的。當時的目標,似乎是搞自動分類,把性質相近的文章湊在一塊兒。拿來評分,只能說未嘗不可;受評者服不服氣,就難說了。
原發表於Jeff & Jill的窩,2012/06/19 21:19:51
01. C.S.Julius 2012/06/24 16:41
大狼每次都會跟客戶說!
電腦是阿斗子發明的!所以,他們看不懂中文!
中文的斷詞還不像英文,抓一抓空格就幾乎搞定一大半了!
就好像平常我們都會聽到的例子:
英文喔?ABCDE二十六個字母我通通認識,但是組合起來一長串的就 ...
中文對於電腦而言
搞不好還認不出來康熙大字典裏面的所有字咧!
而且!
文章最奧妙之處不是在數量!而是在語意的分析!
嘿嘿嘿~~~這世界上最強的GOOGLE可還不敢踏入文章解析的這個區塊!
要是GOOGLE的語意分析程度夠強!
就不會看到很多GOOGLE翻譯出來的可笑文章了!
可惜的是!
智障的百傑主辦單位居然想要用電腦程式來做文章語意分析的這個區塊!
單純的寫個七八百個關鍵字就要做語意分析!
判斷文章是否為旅遊類文章!
真的只能送他們幾個字!亂搞!
不懂就不要裝懂!不行就不要裝行!
現在到好了,硬要用程式判斷文章內容!搞得參賽者動則得咎!
大狼我倒是很期待,主辦單位連火星文都可以分析啦!
只有七百左右的詞庫,連做文章相似度比對,可能都嫌不夠,更別說語意分析了,充其量只是字詞檢索而已。
突然想到,弄篇世界國名城市列表,搞不好分數很高。不過要避免dreamer girl那些冷門景點。超越小學低年級地理知識範圍的,應該不會在那七百字當中。
02. 小樹rabenta 2012/06/25 09:37
引用大狼同學所說的分析文章語意部分,電腦做資料統計分析還可以,要它來判斷文章語意、專業度、深度、流暢度及可讀性,真的太難為電腦了,一篇文章只要塞了超過20個不重覆的關鍵字,讀起來很難不卡卡,就s-rank專業力來說可以拿高分,但就可讀性來說會變得很怪異,這是考驗大家造句的功力嗎?
明明不專業,卻厚著臉皮來評斷別人的專業力,這是我最受不了的地方。
無論關鍵字算一次或算幾次,跟專業又有什麼關係?若是如此,把台鐵的票價時刻表貼進文章,台灣地名豈不一網打盡,專業到了極點。
03. C.S.Julius 2012/06/25 16:25
這是管窺蠡測的最好範例嗎?
百傑的主辦單位說,他們的程式裡有七百多個關鍵字用來判斷部落格的文章!
哈哈哈哈~~~
資策會的大學者、大官們一定有聽過中研院的中文斷詞系統
不過,承辦單位的程式工程師們應該也有聽過!
但是,承辦單位的主管、老闆們可能搞不清楚狀況!
大狼只能建議,資策會要辦這種活動,還是要找專業度夠高的公司舉辦
中研院中文斷詞系統?
有興趣的可以找GOOGLE查一下!
七百多個關鍵字跟中研院的中文斷詞系統比一下?
這不是管窺蠡測??是啥?
說得好!講白一點,就是不自量力吧。
本來就覺得這套系統有如兒戲,看了小樹講的,整個就是無言。打從開賽之初,我就懷疑主辦單位根本沒有一套妥善的評分系統,而是摸著石頭過河,程式邊走邊修。結果居然還根據參賽者的文章修訂詞庫,難怪分數不時打擺子。大概看關鍵字採集大隊巡到誰家,那天就輪到誰進補;沒被它蒐集到的參賽者,不就虧大了。竟有這麼莫名其妙的比賽!
沒有留言:
張貼留言