内容简介:DeepSeek、强化学习及DeepSeek后时代 强化学习这类方法善于训练具有单一技能的智能体Agent,比如教会AlphaGo如何下赢一盘棋,机器人翻跟头、恶劣环境行走,无人机在复杂环境中快速竞飞等。而强化学习本身也是一种机器学习方法,其特点在于通过设置奖励,让计算机自己去try-and-error:通过试错,在行为(action)探索空间space(行为可行域)...
用户评论
推荐服务