Kimi k1.5模型多模态推理强,长上下文RL训练突破,long2short方法高效,优化RL训练框架,详细训练过程。
DeepSeek-R1:开源大模型,强化学习提升推理能力,蒸馏至小型模型,性能优异。
OpenAI推出AI安全红队测试新策略,多步强化学习提升模型质量,红队测试成AI产品发布关键环节。
InfAlign:谷歌DeepMind研发的机器学习框架,通过校准强化学习提升语言模型推理胜率,显著改善AI系统对齐。