Atambajew - 搜索

约 10,500 个结果

在新选项卡中打开链接

时间不限

zhihu.com
https://zhuanlan.zhihu.com
强化学习入门：基本思想和经典算法 - 知乎
2022年2月21日 · 通过感知所处环境的状态 (state) 对动作 (action) 的反应 (reward)，来指导更好的动作，从而获得最大的收益 (return)，这被称为在交互中学习，这样的学习方法就被称作强化学习。
runoob.com
https://www.runoob.com › ml › ml-deep-reinforcement-learning...
深度强化学习 - 菜鸟教程
深度强化学习深度强化学习是人工智能领域一个令人兴奋的交叉方向，我们可以把它拆解成两个部分来理解：强化学习是核心思想，它模拟了人类或动物通过“试错”来学习的过程。
csdn.net
https://blog.csdn.net › CltCj › article › details
强化学习入门这一篇就够了！！！万字长文-CSDN博客
2021年8月6日 · 一种办法是学习policy函数π，这在强化学习里面叫做policy-based learning 基于策略的学习，我后面会讲，假如我们有了policy函数π，我们就可以用π函数控制agent做动作了，每观测到一 …
baidu.com
https://baike.baidu.com › item › 强化学习
强化学习（学习方法）_百度百科
强化学习（Reinforcement Learning，RL）是一种机器学习方法，强化学习的基础框架是马尔可夫决策过程，它允许智能体（Agent）能够在与环境（Environment）的交互中通过试错来学习最优策略。
cnblogs.com
https://www.cnblogs.com › GreenOrange › articles
强化学习的几个主要方法（策略梯度、PPO、REINFORCE ...
2024年12月2日 · 先介绍两个概念，同策略学习（On-Policy Learning）和异策略学习（Off-Policy Learning），在强化学习里面，要学习的是一个智能体。如果要学习的智能体和与环境交互的智能 …
unsloth.ai
https://unsloth.ai › docs › zh › kai-shi-shi-yong › ...
强化学习（RL）指南 | Unsloth Documentation
2026年1月15日 · 复制开始使用 💡 强化学习（RL）指南全面了解强化学习（RL），以及如何使用 Unsloth 和 GRPO 训练你自己的 DeepSeek-R1 推理模型。从入门到进阶的完整指南。强化学习是指一个“ …
boyuai.com
https://hrl.boyuai.com › chapter › 初探强化学习
初探强化学习 - 动手学强化学习
2026年1月12日 · 本章主要讨论强化学习的基本概念和思维方式。希望通过本章的讨论，读者能了解强化学习在解决什么任务，其基本的数学刻画是什么样的，学习的目标是什么，以及它和预测型的有监督 …
tsinghua.edu.cn
https://www.tup.tsinghua.edu.cn › upload › books › yz
[PDF]
3.1 强化学习的基本概念和原理
2026年1月5日 · 强化学习作为人工智能和机器学习的一个重要分支,近年来在各个领域都取得了令人瞩目的成就。从战胜世界顶级围棋选手的AlphaGo,到自动驾驶汽车的决策系统,再到高效的推荐算法,强化 …
tencent.com
https://cloud.tencent.com › developer › article
深度万字：强化学习的终局与未来，从DQN、世界模型到 ...
2025年11月28日 · Kevin P. Murphy发布了一份144页的强化学习的全面概览电子书，梳理了强化学习领域的最新的理论基础，并揭示了一条清晰的技术演进路径——从早期的理论模型，到当今驱动大语言 …
为回应符合本地法律要求的通知，部分搜索结果未予显示。有关详细信息，请参阅此处。
分页
- 1
- 2
- 3
- 下一页

强化学习入门：基本思想和经典算法 - 知乎

深度强化学习 - 菜鸟教程

强化学习入门这一篇就够了！！！万字长文-CSDN博客

强化学习（学习方法）_百度百科

强化学习的几个主要方法（策略梯度、PPO、REINFORCE ...

强化学习（RL）指南 | Unsloth Documentation

初探强化学习 - 动手学强化学习

3.1 强化学习的基本概念和原理

深度万字：强化学习的终局与未来，从DQN、世界模型到 ...