中文大學校刊二零二一年第一期

... ... 分門別類電腦會先從排放量數據中隨機抽取樣本，然後以一種名為決策樹（decision tree）的分類法加以整理。顧名思義，決策樹的分類過程如大樹開枝散葉。電腦會按樣本的其中一個因素，如氣溫之高低，把它們分為兩組，每組樣本又會按另一個因素再細分，如此類推。種樹成林電腦會隨機抽取另一堆排放量數據樣本，再以上述方法分門別類。整個過程會不斷重複，直至電腦得出大量決策樹，而「隨機森林」這個名字，正是由此得來。電腦大費周章，重複抽樣分類，為的是避免過適（overfitting）這個在人工智能十分常見問題。一棵決策樹只能反映數據一部分的規律，在此基礎上作出的分析，自然不能代表事實全部。所謂過適，正是指電腦過分留意部分數據，側重一方，以致分析有欠穩妥。通過種出大量決策樹，電腦得以反覆咀嚼整份數據，確保分析全面。知所先後經一連串分類，數據中的規律開始浮現。電腦隨即可計算數據按各因素排序後的整潔程度（mean decrease in impurity），進而推斷各因素對排放量有多大影響。最影響數據型態走向的因素，正是導致紅樹林釋出甲烷的元兇。穿壁引光很多人工智能程式構造複雜，決策機制不明，因而有「黑盒」（black box）之稱。相比之下，隨機森林的原理尚算簡單，方便學者掌握數據是如何被整理出來，從而推斷其當初的形成過程、受甚麼因素左右。 2 3 4 甲烷排放量低高氣溫氣溫 ≥ x 氣溫 < x 鹽度 AI：人算不如機算？ 37

中文大學校刊 二零二一年第一期

中文大學校刊二零二一年第一期