评论：DeepSeek、强化学习及DeepSeek后时代

内容简介：DeepSeek、强化学习及DeepSeek后时代强化学习这类方法善于训练具有单一技能的智能体Agent，比如教会AlphaGo如何下赢一盘棋，机器人翻跟头、恶劣环境行走，无人机在复杂环境中快速竞飞等。而强化学习本身也是一种机器学习方法，其特点在于通过设置奖励，让计算机自己去try-and-error：通过试错，在行为（action）探索空间space（行为可行域）...

用户评论