国内版
国际版
网页
图片
视频
短视频
学术
词典
地图
更多
航班
笔记本
报告不当内容
请选择下列任一选项。
无关
低俗内容
成人
儿童性侵犯
时长
全部
短(小于 5 分钟)
中(5-20 分钟)
长(大于 20 分钟)
日期
全部
过去 24 小时
过去一周
过去一个月
去年
清晰度
全部
低于 360p
360p 或更高
480p 或更高
720p 或更高
1080p 或更高
源
全部
优酷
酷6
土豆
6.cn
Joy
新浪
搜狐
CCTV
价格
全部
免费
付费
清除筛选条件
筛选器
25:21
L4 TRPO and PPO (Foundations of Deep RL Series)
已浏览 482 次
2021年8月30日
bilibili
深度强化学习实验室
30:15
TRPO算法原理与实验实现
已浏览 738 次
2024年9月20日
bilibili
kindlytrees
39:39
【TRPO系列讲解】(五)TRPO_理论推导篇
已浏览 6492 次
2022年5月17日
bilibili
机智的王小鹏
19:28
【TRPO系列讲解】(六)TRPO_求解实现篇
已浏览 2446 次
2022年5月22日
bilibili
机智的王小鹏
29:27
TRPO 置信域策略优化 Trust Region Policy Optimization_
已浏览 8792 次
2021年6月29日
bilibili
cvzhen
15:55
Policy Optimization & TRPO & PPO | RL原理讲解系列#3
已浏览 8522 次
2023年12月20日
bilibili
Up-Fei
31:11
14.[彪哥带你学强化学习]终于有人把trpo算法讲清楚了
已浏览 1622 次
10 个月之前
bilibili
爱格物的彪哥
21:08
【强化学习】TRPO算法-2 算法讲解
已浏览 754 次
2024年11月26日
bilibili
灼眼的全息坚果
7:18
蒋乐天 - PPO
已浏览 3249 次
2019年10月25日
bilibili
伯禹人工智能学院
9:48
【强化学习】TRPO算法-1 原理推导
已浏览 2275 次
2024年11月26日
bilibili
灼眼的全息坚果
56:29
【青稞Talk102期】从 TRPO 到 SAPO:大模型 RL 算法演进
已浏览 2175 次
2 个月之前
bilibili
青稞社区
15:14
[Agentic RL] 02 策略梯度基础,从 PG 到 TRPO 到 PPO-Clip 核心公式简
…
已浏览 4775 次
5 个月之前
bilibili
五道口纳什
41:01
Policy Gradients, TRPO, PPO算法
已浏览 731 次
2023年6月6日
bilibili
tiandiao123
37:05
推理大模型 | TRPO求解方法论
已浏览 35 次
5 个月之前
bilibili
比尔森一撇
16:26
TRPO:稳定策略优化的理论基础
已浏览 404 次
3 个月之前
bilibili
科羚AI深度学堂
7:55
强化学习 TRPO 证明1
已浏览 437 次
2023年1月31日
bilibili
Will-HhdZ
25:17
【PPO的前身】【TRPO】第一部分 直观理解与算法理论
已浏览 1.1万 次
5 个月之前
bilibili
东川路第一可爱猫猫虫
18:50
强化trpo
已浏览 171 次
2025年2月28日
bilibili
天道酬喵喵
25:56
共轭梯度,ChatGPT的加速器,TRPO/PPO的基础
已浏览 2521 次
2023年7月2日
bilibili
AI不摆烂
1:31:57
近端策略优化(PPO)算法
已浏览 1.7万 次
2025年1月8日
bilibili
蒋一讲AI
43:13
16.[彪哥带你学强化学习]全网讲的最系统的TRPO算法
已浏览 739 次
10 个月之前
bilibili
爱格物的彪哥
50:45
使用Huggingface TRL库基于GRPO复现DeepSeek-R1推理模型
已浏览 3240 次
10 个月之前
bilibili
智驭导师授AI
28:11
9.1 Trust Region Policy Optimization (TRPO)
已浏览 1212 次
2021年12月27日
bilibili
Sunlight79
14:58
[DRL] 从策略梯度到 TRPO(Lagrange Duality,拉格朗日对偶性)
已浏览 8784 次
2024年5月3日
bilibili
五道口纳什
12:43
个人对TRPO算法的理解
已浏览 341 次
2025年3月11日
bilibili
BI_MU
13:06
15.[彪哥带你学强化学习]TRPO算法中近似函数和原目标函数的阈值怎么
…
已浏览 897 次
10 个月之前
bilibili
爱格物的彪哥
9:24
深度强化学习第三课TRPO(2017):稳定策略优化的
…
已浏览 131 次
3 个月之前
bilibili
深度学习k学长
Deep Reinforcement Learning Through Policy Optimization
2024年6月5日
Microsoft
v-trmyl
29:49
四、TRPO论文中参数化策略的优化方法与重要性采样的线下策略
已浏览 89 次
2025年3月12日
bilibili
茶肉酱
1:06:22
【强推】李宏毅深度强化学习完整版教程!简单易懂的PPO算法强化学习
…
已浏览 6791 次
2024年10月8日
bilibili
人工智能-研究院
观看更多视频
反馈