新闻热点 130 次浏览 FlashInfer:高效LLM推理解决方案,提升性能与资源利用 FlashInfer:专为LLM推理设计,支持多种注意力机制,优化GPU资源利用,显著减少推理延迟,提升效率,开源合作推动AI发展。 查看全文
新闻热点 197 次浏览 o1-like模型“过度思考”问题及优化策略 o1-like模型存在过度思考问题,腾讯AI实验室提出优化策略,提高资源利用效率,减少token使用,提升模型在简单任务上的准确性。 查看全文