人工智能(AI)領(lǐng)域關(guān)注構(gòu)建智能體,即能感知與行動(dòng)的實(shí)際存在,而更智能的智能體現(xiàn)在其能選擇更優(yōu)的行動(dòng)方案。因此,“某些行動(dòng)優(yōu)于其他”的概念是 AI 的核心。獎(jiǎng)勵(lì)(reward,源于心理學(xué)與神經(jīng)科學(xué)的術(shù)語)表示提供給智能體與其實(shí)際行為質(zhì)量相關(guān)的信號(hào)。強(qiáng)化學(xué)習(xí)(RL) 則是通過獎(jiǎng)勵(lì)信號(hào)學(xué)習(xí)更成功行為的過程。
“從獎(jiǎng)勵(lì)中學(xué)習(xí)”的理念由來已久,可以追溯到千年以來的動(dòng)物訓(xùn)練,后來,圖靈 1950 年的論文《計(jì)算機(jī)器與智能》(Computing Machinery and Intelligence)提出“機(jī)器能思考嗎?”的問題,并提出了基于獎(jiǎng)勵(lì)和懲罰的機(jī)器學(xué)習(xí)方法。