什麼是強化學習(Reinforcement Learning)

強化學習(Reinforcement Learning, RL) 定義了機器是如何在不有正確答案的情況下進行學習,而這個電腦或機器在這領域稱為人工智慧代理(Agent) 。
強化學習與傳統機器學習中的監督式學習(Supervised Learning) 和非監督式學習(Unsupervised Learning) 不同,它不依賴於明確的正確答案或大量標記資料,代理靠著與環境的互動來獲得反饋,在經過這個反覆的反饋來逐漸找到最佳方法
強化學習中 代理(Agent) 會在一個環境(Environment) 中持續進行行動,並根據這些行動獲得來自環境的回饋,回饋也就是強化學習中的獎勵(Reward) 。透過這種與環境互動的方式,代理會逐步學會哪些行為策略能帶來最大的累積回饋,進而找到解決任務的最佳方法。
因此,強化學習的核心在於「探索」與「長短期回饋」,代理並非一次就知道正確的行動,而是在不斷探索與學習中調整其行為策略。