当前标签

reinforcement learning

Kimik1.5：多模态LLM强化学习突破

Ai专栏 166 次浏览

Kimik1.5：多模态LLM强化学习突破

Kimi k1.5模型多模态推理强，长上下文RL训练突破，long2short方法高效，优化RL训练框架，详细训练过程。

DeepSeek-R1：强化学习提升LLM推理

Ai专栏 136 次浏览

DeepSeek-R1：强化学习提升LLM推理

DeepSeek-R1：开源大模型，强化学习提升推理能力，蒸馏至小型模型，性能优异。

OpenAI发布红队测试新策略，AI安全再升级

新闻热点 241 次浏览

OpenAI发布红队测试新策略，AI安全再升级

OpenAI推出AI安全红队测试新策略，多步强化学习提升模型质量，红队测试成AI产品发布关键环节。

InfAlign：提升AI模型推理效率的新框架

新闻热点 141 次浏览

InfAlign：提升AI模型推理效率的新框架

InfAlign：谷歌DeepMind研发的机器学习框架，通过校准强化学习提升语言模型推理胜率，显著改善AI系统对齐。