国产探花免费观看_亚洲丰满少妇自慰呻吟_97日韩有码在线_资源在线日韩欧美_一区二区精品毛片,辰东完美世界有声小说,欢乐颂第一季,yy玄幻小说排行榜完本

首頁 > 學(xué)院 > 名詞解釋 > 正文

什么是強(qiáng)化學(xué)習(xí)?從獎(jiǎng)勵(lì)中學(xué)習(xí)

2025-03-06 17:47:21
字體:
供稿:網(wǎng)友
人工智能(AI)領(lǐng)域關(guān)注構(gòu)建智能體,即能感知與行動(dòng)的實(shí)際存在,而更智能的智能體現(xiàn)在其能選擇更優(yōu)的行動(dòng)方案。因此,“某些行動(dòng)優(yōu)于其他”的概念是 AI 的核心。獎(jiǎng)勵(lì)(reward,源于心理學(xué)與神經(jīng)科學(xué)的術(shù)語)表示提供給智能體與其實(shí)際行為質(zhì)量相關(guān)的信號(hào)。強(qiáng)化學(xué)習(xí)(RL) 則是通過獎(jiǎng)勵(lì)信號(hào)學(xué)習(xí)更成功行為的過程

“從獎(jiǎng)勵(lì)中學(xué)習(xí)”的理念由來已久,可以追溯到千年以來的動(dòng)物訓(xùn)練,后來,圖靈 1950 年的論文《計(jì)算機(jī)器與智能》(Computing Machinery and Intelligence)提出“機(jī)器能思考嗎?”的問題,并提出了基于獎(jiǎng)勵(lì)和懲罰的機(jī)器學(xué)習(xí)方法。

盡管圖靈報(bào)告了一些初步的相關(guān)實(shí)驗(yàn),以及亞瑟?塞繆爾(Arthur Samuel)在 20 世紀(jì) 50 年代開發(fā)了通過自我對(duì)弈學(xué)習(xí)的跳棋程序,但此后數(shù)十年,在人工智能這一方向進(jìn)展甚微。20 世紀(jì) 80 年代初,受心理學(xué)啟發(fā),巴托與博士生薩頓開始將強(qiáng)化學(xué)習(xí)定義為通用問題框架。

他們借鑒馬爾可夫決策過程(MDPs)的數(shù)學(xué)基礎(chǔ),其中智能體在隨機(jī)環(huán)境中決策,每次狀態(tài)轉(zhuǎn)移后接收獎(jiǎng)勵(lì)信號(hào),以最大化長(zhǎng)期累積獎(jiǎng)勵(lì)為目標(biāo)。與傳統(tǒng) MDP 理論假設(shè)環(huán)境完全已知不同,強(qiáng)化學(xué)習(xí)框架允許環(huán)境與獎(jiǎng)勵(lì)是未知的。這種最小化信息需求與 MDP 的通用性結(jié)合,使強(qiáng)化學(xué)習(xí)算法適用于廣泛?jiǎn)栴}。

巴托和薩頓與其他研究人員共同開發(fā)了強(qiáng)化學(xué)習(xí)的許多基本算法。他們的重要貢獻(xiàn)之一是——時(shí)序差分學(xué)習(xí)(Temporal Difference Learning),它在解決獎(jiǎng)勵(lì)預(yù)測(cè)問題方面取得了重要進(jìn)展;以及策略梯度方法(policy-gradient methods)和將神經(jīng)網(wǎng)絡(luò)作為表示已學(xué)習(xí)功能的工具使用。他們還提出了結(jié)合學(xué)習(xí)和規(guī)劃的智能體設(shè)計(jì),證明了將環(huán)境知識(shí)作為規(guī)劃基礎(chǔ)的價(jià)值。

此外,他們的經(jīng)典教材《強(qiáng)化學(xué)習(xí):導(dǎo)論》(Reinforcement Learning: An Introduction,1998)被引用超 7.5 萬次,至今仍是該領(lǐng)域標(biāo)準(zhǔn)參考資料。在這本書的影響下,成千上萬的研究者能夠理解并參與到這個(gè)新興領(lǐng)域,并繼續(xù)激發(fā)今天計(jì)算機(jī)科學(xué)領(lǐng)域的大量重要?jiǎng)?chuàng)新。

盡管巴托和薩頓的算法誕生于數(shù)十年前,但其與深度學(xué)習(xí)算法的結(jié)合(由2018年圖靈獎(jiǎng)獲得者Bengio、Hinton和LeCun開創(chuàng)),從而導(dǎo)致了深度強(qiáng)化學(xué)習(xí)的出現(xiàn),在過去 15 年取得多項(xiàng)重大突破。

最突出的例子是 AlphaGo 程序在 2016 年和 2017 年戰(zhàn)勝了最優(yōu)秀的人類圍棋選手。最近一項(xiàng)重大成就則是聊天機(jī)器人 ChatGPT 的開發(fā)。ChatGPT 是一個(gè)經(jīng)過兩階段訓(xùn)練的大型語言模型(LLM),其中第二個(gè)階段采用了一種被稱為基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的技術(shù),以獲取人類的期望。

此外,強(qiáng)化學(xué)習(xí)也在許多其他領(lǐng)域取得成功。一個(gè)引人注目的例子是在機(jī)器人操作和解決物理(三階魔方)問題中的運(yùn)動(dòng)技能學(xué)習(xí),這表明有可能在模擬中進(jìn)行所有強(qiáng)化學(xué)習(xí),最終在截然不同的現(xiàn)實(shí)世界中取得成功。其他領(lǐng)域包括網(wǎng)絡(luò)擁塞控制、芯片設(shè)計(jì)、互聯(lián)網(wǎng)廣告、全球供應(yīng)鏈優(yōu)化、提升聊天機(jī)器人的行為和推理能力,甚至改進(jìn)計(jì)算機(jī)科學(xué)中最古老的問題之一——矩陣乘法的算法。

最終,一項(xiàng)部分受神經(jīng)科學(xué)啟發(fā)的技術(shù)也予以了回報(bào)。包括巴托在內(nèi)的近期研究顯示,人工智能領(lǐng)域開發(fā)的特定強(qiáng)化學(xué)習(xí)算法為有關(guān)人類大腦多巴胺系統(tǒng)的大量發(fā)現(xiàn)提供了最佳解釋。

ACM 主席雅尼斯·約安尼迪斯(Yannis Ioannidis)表示:“巴托和薩頓的研究成果表明,將多學(xué)科方法應(yīng)用于我們領(lǐng)域長(zhǎng)期存在的挑戰(zhàn)具有巨大潛力。從認(rèn)知科學(xué)、心理學(xué)到神經(jīng)科學(xué)等研究領(lǐng)域啟發(fā)了強(qiáng)化學(xué)習(xí)的發(fā)展,這為人工智能的一些最重要進(jìn)展奠定了基礎(chǔ),并讓我們對(duì)大腦的工作原理有了更深入的了解。巴托和薩頓的工作并非我們已經(jīng)跨越的墊腳石。強(qiáng)化學(xué)習(xí)仍在不斷發(fā)展,并為計(jì)算及其他眾多學(xué)科的更進(jìn)一步提供了巨大潛力。授予他們本領(lǐng)域的最高榮譽(yù),實(shí)至名歸。”

谷歌高級(jí)副總裁杰夫·迪恩(Jeff Dean)指出:“在 1947 年的一次演講中,艾倫·圖靈曾表示‘我們需要的是一臺(tái)能夠從經(jīng)驗(yàn)中學(xué)習(xí)的機(jī)器’。由巴托和薩頓開創(chuàng)的強(qiáng)化學(xué)習(xí)直接回應(yīng)了圖靈的這一挑戰(zhàn)。他們的工作在過去幾十年里一直是人工智能領(lǐng)域取得進(jìn)展的關(guān)鍵所在。他們開發(fā)的工具仍然是人工智能熱潮的核心支柱,并促成了重大進(jìn)步,吸引了大批年輕研究人員,并帶來了數(shù)十億美元的投資。強(qiáng)化學(xué)習(xí)的影響還將持續(xù)到未來很長(zhǎng)一段時(shí)間。谷歌很榮幸贊助圖靈獎(jiǎng),并向那些塑造了改善我們生活的技術(shù)的人士致敬。”
發(fā)表評(píng)論 共有條評(píng)論
用戶名: 密碼:
驗(yàn)證碼: 匿名發(fā)表
主站蜘蛛池模板: 阿鲁科尔沁旗| 彰化市| 蒙山县| 昌乐县| 潢川县| 庄河市| 鄂尔多斯市| 嘉善县| 龙山县| 开阳县| 虎林市| 周至县| 临洮县| 阿尔山市| 锦屏县| 屏山县| 冷水江市| 满洲里市| 藁城市| 孝昌县| 鸡泽县| 凭祥市| 宜丰县| 武山县| 沂水县| 曲沃县| 新干县| 罗江县| 金山区| 灵丘县| 固安县| 阜城县| 双牌县| 化州市| 卢湾区| 武胜县| 竹山县| 巴南区| 大荔县| 丰宁| 彰化市|