關於智能的第一性原則,以及對於 AI 人工智能發展的影響

[大衛選讀] 去年底的 AI 熱潮開始後,我就一直在找關於人工智能發展的基礎原則。若能看懂大的原則跟方向,後面要做自我技能的發展,或是特定的投資決策,都會比較容易些。

On some first principles of intelligence 這篇文章,試著寫出了智能的幾個第一性原則,並且用此對比人工智慧的發展。

文中提到了如何建立資訊反饋機制 (feedback mechanism)、善用電腦在儲存與計算上的巨大優勢、以及怎樣發展泛化能力 (generalization capability) 等概念,非常具啟發性。

原文是一篇很簡短,但有點硬的文章。為了讓自己讀懂,我額外讀了不少相關資訊,再擴寫成以下的重點摘要。

內容整理如下,原文連結:https://www.lesswrong.com/posts/oJzHEYL9ztgMwsze9/on-some-first-principles-of-intelligence


On some first principles of intelligence

關於智能的第一性原則

過去十年中 AI 研究的進展和成功,似乎都可以追溯到上世紀所發現的一些關於智能本質的基本原則。以下就來細談這幾個可以視為是智能的第一性原則,以及這些原則對於 AI 人工智能發展的影響。

▎由 Robert Wiener 提出的反饋機制 (Feedback mechanism)

一般來說,反饋 (feedback) 是對於資訊迴路的抽象描述,目的是在確保一個系統能夠持續地改善與調適 (improvement/adaptation)。

在真實世界裡,人類和動物都需要收到反饋,以便提高做某件事情的技能水準。同樣的,一個產品或技術,也需要來自於外部環境的反饋資訊,來逐步改進以達到一定的可用性。

我們可以這樣說,任何有用的自動化系統,本身都是封閉迴路的反饋系統 (closed-loop feedback system)。系統會監控輸出,並且用來調整輸入;藉由不斷地回饋本身的狀態,來自行調整運作效能。

從這個角度來看,那些沒有反饋機制的自我監督機器學習,像是設定了很多規則去模擬但卻沒有真實上路的自駕系統,發展到最後並不能產生令人滿意的結果,那就一點也不意外了。因為這樣的系統,缺乏來自於外部環境對於表現好壞的反饋。

這些資訊是非常必要的,可以用來改進跟修正。

從這個角度來看,一個 AGI 通用人工智慧必須要能夠自主與環境互動,透過觀察去收集動作之後的反饋,並通過某種機制去持續地整合所得資訊,進而改寫優化自身的程式碼。

▎由 Rolf Landauer 提出的蘭道爾原理 (Landauer’s Principle)

Landauer’s Principle 把資訊熵 (information entropy) 與熱力學的熵 (thermal dynamics entropy),巧妙地連結在一起。兩者同樣都遵循熱力學的第二定律。這個原理認為,當你刪除一個位元的資訊時,會有對應的能量被釋放到環境中,也就是變成熱能。資訊處理和能量消耗之間是密不可分的。

熵在這裡可以被視為一個對不確定性 (uncertainty),或混亂程度 (disorder) 的度量。在人工智能領域中,降低熵就意味著減少不確定性、提高模型的預測能力或效能。

如果一個演算法被放在封閉系統裡,沒有來自外部環境的資訊反饋,像是加入更多的新數據或是人類的知識,它將無法學習或適應新的狀況。它的智能水平或是預測能力將無法提昇,熵也就不會降低。

目前最常用的反饋方法是,利用工程師自己的理解和判斷,來優化和改進機器學習模型。然而人類的思考速度和處理能力相對較慢,而且可能受到先入為主的偏見影響。隨著數據和模型規模的增長,單單只靠人類工程師的大腦來反饋和優化,可能會變得越來越不切實際。

原因有三個。第一個是人類的腦袋並沒有辦法能直接存取大量的原始數據,再從中提取出有用的資訊。電腦則很適合去儲存跟處理大量的資訊。

第二個原因是人類依賴思考系統中的系統二 (system 2 thinking) 去做邏輯分析,來改進演算法。但是系統二是單線且緩慢的,需要一個一個步驟去做計算跟推理。如此一來,人類本身就變成了演算法優化的主要瓶頸。電腦則可以處理大量的平行運算,也因此GPT能夠快速整理資訊,大規模地生成邏輯一致的文字內容。

第三個原因是,計算其實就是一種資訊處理,過程中會消耗能量。計算的成果是讓資訊熵降低,減少不確定並增加效能;但同時也會造成熱力學的熵相對增加,產生出額外的熱能。這處理過程是非常耗能的,如果機器可以取得充足的能量供應,例如電力,那麼在計算方面,相較於人類需要透過覓食跟消化來取得能量,就有很大的優勢。

▎由 Alan Turing 提出的通用計算 (Universal computation)

除了能夠透過反饋來自我學習,以及分析大量資料來做邏輯推理之外,另一個展現智能的重要關鍵是泛化能力 (generalization capability)。

泛化能力是指人們能夠根據過去的經驗和知識來適應新情況,或是解決新問題的能力。簡單來說,這是一種「學了一點,應用很多」的能力。這是人類智慧的一個重要特點,也是其他動物和過往電腦難以達到的水平。

人類是怎麼做到的,主要是透過歸納和演繹來做到泛化。

歸納 (induction) 是從具體的實例或觀察中推出的一般性規則。歸納是從「下到上」的推理。這種推理方法往往是不完全確定的,因為即使所有觀察到的實例都符合某個規則,也不能保證未來所有的實例都會符合這一規則。看到一籃紅蘋果,並不代表世界上所有的蘋果都會是紅色的。

而演繹 (deduction) 是從一個或多個一般性原則出發,推導出具體的結論。演繹是從「上到下」的推理。這種推理方法只要前提是真確的,那麼由演繹得出的結論就必定是真的。例如很經典的例子:所有人都會死,既然蘇格拉底是人,那他總有一天會死。

人類在歸納跟演繹時,會先基於 System 1 的直覺去提出可能的假設,然後再用 System 2 的邏輯推理去系統性地排除那些跟實際觀察數據不吻合的假設。學理上稱作為拒絕取樣 (rejection sampling)。

這跟演算法中的 SGD 隨機梯度下降 (stochastic gradient descent) 作法類似。大型語言模型之所以有強大的泛用能力,可以適應人類提出的各種問題,正是因為能每次只使用一小批訓練樣本來更新模型參數。透過小範圍地逐步學習調整,這樣更容易去掌握到一般性的規律,並且泛用到其他的領域去。

而語言本身不僅僅是文字和句子,是一個更高層次的抽象系統,這個系統是建立在我們從外界獲取的各種感官資訊上的。換句話說,語言將我們對世界的感知和理解,轉化為可溝通的形式。人工智能一旦掌握了語言,結合了其泛化能力,在回答各式問題上的表現就會非常優越突出。

▎未來我們將需要新的理論,來了解這之間的新生現象與關係

上述這些關於智能的第一性原則,是非常基礎而不可割捨的 (fundamental and irreducible),因為它們跟支持萬物運作的物理定律息息相關。透過了解智能的第一性原則,我們對於人工智慧的發展方向會有初步的掌握。

然而,生命和智能 (life and intelligence) 很難單單靠第一性原則,就能被充分推導和理解。因為任何形式的智能本身,都是複雜的動態系統 (complex dynamic system)。

當人工智能技術發展到某個臨界點時,隨之將產生複雜多層次的反饋、自組織型態的運作,以及如摩爾定律般的指數型變動等。

這些湧現的層次與巨幅變動,讓我們未來會需要新的理論,來解釋這些從複雜系統中自然產生的新現象,以及現象之間的新關係。

作者:

David 陳文剛

長期專注於UX設計創新,專長為design coaching, team facilitation & consulting. 現為AJA Creative 使用經驗總監,UXTW 台灣使用者經驗設計協會 共同發起人。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *