人工智慧代理概念(AI Agent)
PEAS 框架
環境的性質（Properties of Environments）
可觀察性（Fully Observable vs. Partially Observable）
代理數量（Single Agent vs. Multiagent）
確定性（Deterministic vs. Stochastic）
情節性（Episodic vs. Sequential）
動態性（Static vs. Dynamic）
離散性（Discrete vs. Continuous）
已知性（Known vs. Unknown）
Agent 架構：五種決策層級
Simple Reflex Agents（簡單反射型代理）
Model-based Reflex Agents（基於模型的反射型代理）
Goal-based Agents（目標導向型代理）
Utility-based Agents（效用導向型代理）
學習型代理(Learning Agent)
參考資料

強化學習

2024-10-06

人工智慧代理概念(AI Agent)

在人工智慧（Artificial Intelligence, AI）的研究中，人工智慧代理（AI Agent） 是理解與設計人工智慧的概念框架。人工智慧代理不等同於強化學習，而是在機器學習、深度學習以及強化學習都可以運用的理論框架，而這些理論模型最終都可以被視為某種形式的智慧代理在環境中感知、決策與行動。

PEAS 框架

PEAS 框架用於最初的任務分析，在設計人工智慧代理 的演算法之前，釐清問題邊界，理解 Agent 與環境之間的關係

四個要素	定義	例子（自動駕駛）
表現評估 (Performance measure)	代理執行工作有哪些因素要評估	目的地、乘客舒適與安全、交通法
環境 (Environment)	代理在哪裡運作	道路、車輛、行人、天氣
執行器 (Actuators)	代理能做什麼動作	轉向、加速、煞車
感測器 (Sensors)	代理能感知什麼	攝影機、雷達、GPS

環境的性質（Properties of Environments）

智慧代理的環境可由多個維度描述，目前這些維度的描述可以幫助研發人員在實驗初期，對於環境的性質分析

可觀察性（Fully Observable vs. Partially Observable）

若代理能完整感知環境狀態，則為可觀察；若只能獲得部分資訊，則為部分可觀察。

代理數量（Single Agent vs. Multiagent）

單一代理獨立行動，多代理則彼此互動、競爭或合作，如博弈或自駕車群體。

確定性（Deterministic vs. Stochastic）

確定性環境中，相同行動會導致固定結果；隨機性環境則具有不確定或機率變化。

情節性（Episodic vs. Sequential）

情節性環境中，每次感知與行動互不影響；序列性環境中，當前行動會影響未來。

動態性（Static vs. Dynamic）

靜態環境在代理決策時不變；動態環境會隨時間或其他因素改變。

離散性（Discrete vs. Continuous）

離散環境的狀態、時間或行動是有限可數；連續環境則是連續變化或無限可能。

已知性（Known vs. Unknown）

已知環境中，代理理解環境規則與結果；未知環境則需透過學習與探索建立知識。

Agent 架構：五種決策層級

Agent 架構上分為五個階段層級，這些層級初步區分了代理的決策程度。

Simple Reflex Agents（簡單反射型代理）

代理根據目前的感知(percept)，遵循規則做出行動，代理並無法考慮感知歷史。

感知(percept)表示代理所獲取的實質資訊，與真實狀態不同，感知仍可能存在錯誤或解釋差異

具體例子，代理感知了地板有垃圾，他就立刻清潔，然後繼續等待，此時代理的感知只存在「乾淨」「骯髒」得判斷並進行動作。

Model-based Reflex Agents（基於模型的反射型代理）

代理需要能夠從感知歷史(percept History)中維護內部狀態(internal state)，並且代理能夠基於內部狀態與世界模型(model of the world) 來做出行動。

理解世界規律、因果關係，這裡稱之為世界模型(model of the world)

具體例子，自動駕駛汽車感知目前右邊以及後方各有一台車，總共有兩臺車在附近，此時訊號中斷或是感測器受到遮蔽物阻擋，但是代理仍知道上一秒中，右邊以及後方各有一台車，並且判斷出時速或是可能的間距位子，而不是認為車子消失了。

Goal-based Agents（目標導向型代理）

代理能夠根據設立目標作為引導決策，能將特定目標作為行動目的，能夠評估目標與動作的關係，而不只是跟隨固定規則來做出動作。

此階段的代理只專注在達成目標，而無法評估目標達成的品質或是進行最佳化的方法分析

Utility-based Agents（效用導向型代理）

代理開始能夠分析不同目標的效用(Utility)並做出決策，進一步引入效用(utility)函數，用以在多種可達目標間評估最佳選擇。

效用函數（Utility Function）：衡量環境狀態或行動方案的好壞，數值化目標偏好。

具體的效用函數可以延伸至貝爾曼公式(Bellman equation)，對於動態決策中的2動作、狀態、價值的評估

學習型代理(Learning Agent)

學習型代理的架構，可以視為當前強化學習領域中的理論目標

此階段的代理能夠從經驗中改進行為與效用評估，逐步提升決策效能，達到自我調整與最優化。

以上五種架構是對於代理能力框架的分類，從反射型代理到學習型代理，後續具體的定義，都將在強化學習領域中展開。

參考資料

Artificial Intelligence: A Modern Approach, 4th Global ed. https://aima.cs.berkeley.edu/global-index.html

其他文章

貝爾曼方程中的價值函數

2025/9/9

強化學習

強化學習回報獎勵定義在持續任務與情境任務中的表示

2025/8/22

強化學習

有限馬可夫決策過程（Finite Markov Decision Process, Finite MDP）

2025/8/14

強化學習