什么是強(qiáng)化學(xué)習(xí)？從獎(jiǎng)勵(lì)中學(xué)習(xí)

2025-03-06 17:47:21

字體：大中小

供稿：網(wǎng)友

人工智能（AI）領(lǐng)域關(guān)注構(gòu)建智能體，即能感知與行動(dòng)的實(shí)際存在，而更智能的智能體現(xiàn)在其能選擇更優(yōu)的行動(dòng)方案。因此，“某些行動(dòng)優(yōu)于其他”的概念是 AI 的核心。獎(jiǎng)勵(lì)（reward，源于心理學(xué)與神經(jīng)科學(xué)的術(shù)語）表示提供給智能體與其實(shí)際行為質(zhì)量相關(guān)的信號(hào)。強(qiáng)化學(xué)習(xí)（RL）則是通過獎(jiǎng)勵(lì)信號(hào)學(xué)習(xí)更成功行為的過程。

“從獎(jiǎng)勵(lì)中學(xué)習(xí)”的理念由來已久，可以追溯到千年以來的動(dòng)物訓(xùn)練，后來，圖靈 1950 年的論文《計(jì)算機(jī)器與智能》（Computing Machinery and Intelligence）提出“機(jī)器能思考嗎？”的問題，并提出了基于獎(jiǎng)勵(lì)和懲罰的機(jī)器學(xué)習(xí)方法。

盡管圖靈報(bào)告了一些初步的相關(guān)實(shí)驗(yàn)，以及亞瑟?塞繆爾（Arthur Samuel）在 20 世紀(jì) 50 年代開發(fā)了通過自我對(duì)弈學(xué)習(xí)的跳棋程序，但此后數(shù)十年，在人工智能這一方向進(jìn)展甚微。20 世紀(jì) 80 年代初，受心理學(xué)啟發(fā)，巴托與博士生薩頓開始將強(qiáng)化學(xué)習(xí)定義為通用問題框架。

他們借鑒馬爾可夫決策過程（MDPs）的數(shù)學(xué)基礎(chǔ)，其中智能體在隨機(jī)環(huán)境中決策，每次狀態(tài)轉(zhuǎn)移后接收獎(jiǎng)勵(lì)信號(hào)，以最大化長(zhǎng)期累積獎(jiǎng)勵(lì)為目標(biāo)。與傳統(tǒng) MDP 理論假設(shè)環(huán)境完全已知不同，強(qiáng)化學(xué)習(xí)框架允許環(huán)境與獎(jiǎng)勵(lì)是未知的。這種最小化信息需求與 MDP 的通用性結(jié)合，使強(qiáng)化學(xué)習(xí)算法適用于廣泛?jiǎn)栴}。

巴托和薩頓與其他研究人員共同開發(fā)了強(qiáng)化學(xué)習(xí)的許多基本算法。他們的重要貢獻(xiàn)之一是——時(shí)序差分學(xué)習(xí)（Temporal Difference Learning），它在解決獎(jiǎng)勵(lì)預(yù)測(cè)問題方面取得了重要進(jìn)展；以及策略梯度方法（policy-gradient methods）和將神經(jīng)網(wǎng)絡(luò)作為表示已學(xué)習(xí)功能的工具使用。他們還提出了結(jié)合學(xué)習(xí)和規(guī)劃的智能體設(shè)計(jì)，證明了將環(huán)境知識(shí)作為規(guī)劃基礎(chǔ)的價(jià)值。

此外，他們的經(jīng)典教材《強(qiáng)化學(xué)習(xí)：導(dǎo)論》（Reinforcement Learning: An Introduction，1998）被引用超 7.5 萬次，至今仍是該領(lǐng)域標(biāo)準(zhǔn)參考資料。在這本書的影響下，成千上萬的研究者能夠理解并參與到這個(gè)新興領(lǐng)域，并繼續(xù)激發(fā)今天計(jì)算機(jī)科學(xué)領(lǐng)域的大量重要?jiǎng)?chuàng)新。

盡管巴托和薩頓的算法誕生于數(shù)十年前，但其與深度學(xué)習(xí)算法的結(jié)合（由2018年圖靈獎(jiǎng)獲得者Bengio、Hinton和LeCun開創(chuàng)），從而導(dǎo)致了深度強(qiáng)化學(xué)習(xí)的出現(xiàn)，在過去 15 年取得多項(xiàng)重大突破。

最突出的例子是 AlphaGo 程序在 2016 年和 2017 年戰(zhàn)勝了最優(yōu)秀的人類圍棋選手。最近一項(xiàng)重大成就則是聊天機(jī)器人 ChatGPT 的開發(fā)。ChatGPT 是一個(gè)經(jīng)過兩階段訓(xùn)練的大型語言模型（LLM），其中第二個(gè)階段采用了一種被稱為基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）的技術(shù)，以獲取人類的期望。

此外，強(qiáng)化學(xué)習(xí)也在許多其他領(lǐng)域取得成功。一個(gè)引人注目的例子是在機(jī)器人操作和解決物理（三階魔方）問題中的運(yùn)動(dòng)技能學(xué)習(xí)，這表明有可能在模擬中進(jìn)行所有強(qiáng)化學(xué)習(xí)，最終在截然不同的現(xiàn)實(shí)世界中取得成功。其他領(lǐng)域包括網(wǎng)絡(luò)擁塞控制、芯片設(shè)計(jì)、互聯(lián)網(wǎng)廣告、全球供應(yīng)鏈優(yōu)化、提升聊天機(jī)器人的行為和推理能力，甚至改進(jìn)計(jì)算機(jī)科學(xué)中最古老的問題之一——矩陣乘法的算法。

最終，一項(xiàng)部分受神經(jīng)科學(xué)啟發(fā)的技術(shù)也予以了回報(bào)。包括巴托在內(nèi)的近期研究顯示，人工智能領(lǐng)域開發(fā)的特定強(qiáng)化學(xué)習(xí)算法為有關(guān)人類大腦多巴胺系統(tǒng)的大量發(fā)現(xiàn)提供了最佳解釋。

ACM 主席雅尼斯·約安尼迪斯（Yannis Ioannidis）表示：“巴托和薩頓的研究成果表明，將多學(xué)科方法應(yīng)用于我們領(lǐng)域長(zhǎng)期存在的挑戰(zhàn)具有巨大潛力。從認(rèn)知科學(xué)、心理學(xué)到神經(jīng)科學(xué)等研究領(lǐng)域啟發(fā)了強(qiáng)化學(xué)習(xí)的發(fā)展，這為人工智能的一些最重要進(jìn)展奠定了基礎(chǔ)，并讓我們對(duì)大腦的工作原理有了更深入的了解。巴托和薩頓的工作并非我們已經(jīng)跨越的墊腳石。強(qiáng)化學(xué)習(xí)仍在不斷發(fā)展，并為計(jì)算及其他眾多學(xué)科的更進(jìn)一步提供了巨大潛力。授予他們本領(lǐng)域的最高榮譽(yù)，實(shí)至名歸。”

谷歌高級(jí)副總裁杰夫·迪恩（Jeff Dean）指出：“在 1947 年的一次演講中，艾倫·圖靈曾表示‘我們需要的是一臺(tái)能夠從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器’。由巴托和薩頓開創(chuàng)的強(qiáng)化學(xué)習(xí)直接回應(yīng)了圖靈的這一挑戰(zhàn)。他們的工作在過去幾十年里一直是人工智能領(lǐng)域取得進(jìn)展的關(guān)鍵所在。他們開發(fā)的工具仍然是人工智能熱潮的核心支柱，并促成了重大進(jìn)步，吸引了大批年輕研究人員，并帶來了數(shù)十億美元的投資。強(qiáng)化學(xué)習(xí)的影響還將持續(xù)到未來很長(zhǎng)一段時(shí)間。谷歌很榮幸贊助圖靈獎(jiǎng)，并向那些塑造了改善我們生活的技術(shù)的人士致敬。”

上一篇：試述締約過失責(zé)任的構(gòu)成條件

下一篇：返回列表