Doge 资讯 - 聚焦狗狗币动态，掌握加密货币前沿信息 - 第51页 - Dogely Crypto

强化学习与大模型后训练：DeepSeek R1 如何获得推理能力？

DeepSeek 正在通过其开源模型 DeepSeek-R1 革新 AI 产业，尽管资源有限，却能媲美 OpenAI 的能力。通过让前沿大模型更广泛地开放，DeepSeek 推动了全球的创新与合作。其创新的基于强化学习（RL）的后训练技术可增强大模型的推理能力和对齐性，使大模型在实际应用中更加高效且易用。在本文中，我们将重点分析 DeepSeek R1 推理模型背后的关键 RL 后训练技术

Doge资讯 2025-02-23 30 阅读
宋亭亭等：DeepSeek或催化中高阶智驾加速渗透

中新经纬2月12日电题：DeepSeek或催化中高阶智驾加速渗透　　作者宋亭亭华泰证券研究所分析师　　张硕华泰证券研究所分析师　　智能驾驶作为AI技术最具前景且能快速落地的应用场景之一，正迎来前所未有的发展机遇。DeepSeek的横空出世，在成本和技术上实现了双突破，不仅为智驾领域带来了直接的技术借鉴，更在发展思路等方面提供了宝贵启示，有望催化智驾领域的技术创新和产业变革

Doge资讯 2025-02-23 39 阅读
deepseek强化学习

标题：“socketTCP通信心跳包实例” 在介绍“socketTCP通信心跳包实例”之前，我们首先要明确几个基本概念。TCP（Transmission Control Protocol）是一种面向连接的、可靠的、基于字节流的传输层通信协议。Socket编程是一种网络编程的手段，它允许程序之间通过网络进行数据交换。在Socket编程中，心跳包（Heartbeat Packet）是一种特定的数据包

Doge资讯 2025-02-23 35 阅读
DeepSeek的核心创新点

R1模型训练首先，DeepSeek R1 创造性地基于 DeepSeek V3 基座模型，通过大规模强化学习技术，得到了一个纯粹通过强化学习增强的强推理模型，即 DeepSeek-R1-Zero。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则（rule-based）的方法，确保强化学习可以规模化，并实现面向强化学习的扩展（Scaling）. DeepSeek R1

Doge资讯 2025-02-23 53 阅读
DeepSeek、强化学习及DeepSeek后时代

DeepSeek、强化学习及DeepSeek后时代强化学习这类方法善于训练具有单一技能的智能体Agent，比如教会AlphaGo如何下赢一盘棋，机器人翻跟头、恶劣环境行走，无人机在复杂环境中快速竞飞等。而强化学习本身也是一种机器学习方法，其特点在于通过设置奖励，让计算机自己去try-and-error：通过试错，在行为（action）探索空间space（行为可行域）

Doge资讯 2025-02-23 67 阅读
Deepseek的核心是强化学习？哪什么是强化学习？通俗解释与专业解读

最近Deepseek爆火，引发了大家对强化学习技术的关注，今天就从通俗科普角度和好专业技术角度跟大家一起探讨下强化学习的概念。（关注公众号“AI演进”，持续学习与更新AI知识！）一、让大家都能听懂的方式解读“强化学习” 举个例子类比一下：小明玩游戏自学成才想象小明在玩一个复杂游戏，但没人告诉小明怎么操作。小明只能通过“尝试-反馈”自学：观察屏幕（状态） → 按按钮（动作） →

Doge资讯 2025-02-23 46 阅读
计科趣闻 | 玩转DeepSeek：大模型学习指南+避坑攻略

前言 preface 同学们，假期快乐。过年期间，相信大家已经被国产的DeepSeek这款人工智能大模型刷屏，随着人工智能的迅猛发展，DeepSeek成为了一款炙手可热的大语言模型（LLM）。但许多同学对它的认识还停留在“聊天机器人”阶段，或误以为它能“无所不知”。那么，DeepSeek 真的如此神奇吗？大学生该如何正确认识和使用它？如果想从事 LLM 研究，又该如何入门？今天

Doge资讯 2025-02-23 44 阅读
震惊 AI 界！DeepSeek

刚看完DeepSeek R1技术报告论文《DeepSeek-R1：强化学习驱动的大语言模型推理能力提升》，这篇论文最令人震惊的点在于： DeepSeek-R1-Zero 作为一个完全没有使用任何监督微调（SFT）数据，仅通过纯粹的强化学习（RL）训练的模型，展现出了惊人的推理能力，推理基准测试上可以媲美乃至超越 OpenAI 的 o1 系列模型（如 o1-0912），完全开源

Doge资讯 2025-02-23 47 阅读
DeepSeek R1：纯强化学习的逆袭之路

“又来一个 AlphaZero 时刻！”这句话或许会在科研圈中引起共鸣。DeepSeek 团队靠着炫酷的纯强化学习（RL），在数学与代码这种双螺旋（Chain-of-Thought）的数据上下一番苦功，催生出了堪比闭源模型的 Reasoning 大牛——R1-Zero。在一片“脑洞大开”的 RL 热潮中，他们不仅找到了激发模型推理能力的秘诀，还为全世界用户呈现了模型在回答问题前的“内心独白”

Doge资讯 2025-02-23 41 阅读
DeepSeek爆火真相：不靠“人盯”，让AI自己学会慢思考

本文整理自InfoQ策划的DeepSeek系列直播第二期节目——DeepSeek爆火背后DeepSeek，纯强化学习路线到底有何不同。在直播中，出门问问大模型团队前工程副总李维博士聚焦推理范式的创新，分析了R1 Zero 对推理模型平民化的创新贡献。他提到，DeepSeek通过开源和透明化，证明了不需要过程监督，仅通过结果控制就能训练出优秀的推理模型，这大大颠覆了传统认知以及OpenAI

Doge资讯 2025-02-23 45 阅读

第一页上一页 1 ... 50 51 52 ... 66 下一页尾页

推荐服务

Telegram粉丝购买

Tiktok涨粉平台

文章分类

热门文章