網絡留痕的玄機：從人工智能到數據挖掘

英國生物學家和科普作家道金斯是著名的無神論者，服膺達爾文的進化論，綽號「達爾文的羅威納犬」。他對那些認為「電腦不及人腦，只能按指令行事，永遠不會有創造力」的論點很不以為然，在1986年出版的《失明鐘錶匠》一書裏，他直斥這是陳腔濫調，就像說「莎士比亞寫的，除了文字這啟蒙老師教過他寫的東西外，其他甚麼也沒有。」

專研人工神經網絡的中大計算機科學與工程學系陳麗雲教授指出，人腦和電腦在創造功能上確實有距離，但兩者的學習過程卻非常相似。

人工神經網絡（簡稱「神經網絡」），是人工智能的一個類型，基本概念是模仿人類神經系統進行信息處理的計算模型，換句話說，那是為電腦建立一套學習過程，即是教電腦學習。人工智能的目標，是令電腦系統具備人類的智識和行為，所以建立學習過程是關鍵的環節。電腦懂得自動學習，便能夠按已有的知識進行推理和判斷，從而解決問題。

不容否認，電腦的學習過程只能根據輸入的學習材料進行。陳麗雲教授解釋，例如教電腦辨識字母A，電腦會從輸入的A及非A的各種圖形中，推理出這個字母的特質，而把字母A辨識出來。

不過電腦學習了一種知識後，輸出的答案有時是出乎意料。兩個不同的網絡，在學習同一知識材料後，處理相同的輸入資料時，輸出的信息可以有別。舉例說，一個網絡會告訴你，數列中1、2、4之後的數字是8；但另一個會說是7。兩個答案也沒有錯，因為網絡是從學習過程中去推算出答案，答案多於一個時，便視乎其在學習的過程中先推算到的是甚麼答案。

與人類一樣，不同網絡的學習進度會有差異。主要原因是網絡會有不同設定，這些設定會影響網絡的學習情況，包括對不同問題有不同的準確度和學習速度。「像有些人精於數字，有些對文學特別敏感。用電腦語言來說，就是設定不同。」此外，人類處理繁複的問題時，窮十年二十年也未必解決得到，電腦也一樣。但如果把問題分拆，逐一處理，解決起來便容易得多。過往需要專家來幫電腦去分拆，最近研究出電腦能自動分拆問題的計算模型，「這是神經網絡近年的發展方向，也是人工智能研究的一項突破。」

陳教授的另一研究重點為數據挖掘。她說，數據挖掘的研究大概始於上世紀九十年代，資訊科技愈發達，所記錄和處理大量數據的能力便愈高，從數據中找出隱藏意義或知識的技術於是發展起來，即所謂數據挖掘。

數據挖掘和神經網絡息息相關，前者從後者衍生出來。舉例說，神經網絡學習從大量數據中辨識某種特質，從而找出其中模式的方法，在數據挖掘上便大派用場。陳教授主要研究金融數據的挖掘，找出不同股票或者不同類別股票的關連及共通的因素。她運用算法尋找出數據之間有一些完全獨立的成分，每一個成分都不受其他因素影響，只須觀察這個成分，對股價的上落便可有較清楚的了解，這在風險管理上有很大作用。「以前技術上認為每一成分互不關連，但我們發現提取和處理完全獨立成分，比沒有關連成分優勝得多，」陳教授說。

今天的網絡世界覆蓋萬千，無所不包，除非從未踏足其中，否則所留下的痕跡，如電郵通訊內容、網上交易記錄、瀏覽網站的歷史、社交群組的資料，全皆是可供挖掘的數據，挖掘所得可用作設計及推銷市場、產品和服務的參考。

一進入網絡世界，我們會不自覺地遺下無法磨滅的足印，那還有甚麼私隱可言？「數據挖掘不是針對個人，而是群組。我們是試圖從人的數據來了解人，」陳教授解釋說。「數據挖掘的應用非常廣泛。舉例說，鬧得熱烘烘的選舉登記問題。我們可以利用數據挖掘，找出在某幾類情況或特徵之下，會有弄虛作假的成分，便可以有效地作出相應的預防措施。」

陳麗雲教授（中）與學生

研究人工神經網絡，旨在教電腦自動學習，並解決問題

網絡留痕的玄機：從人工智能到數據挖掘

各期刊物

社交網路書籤

快速連結