微软Phi-4模型解析与使用

微软研究院的最新成果——Phi-4来啦!近日,微软公布了Phi家族的最新一代模型Phi-4的技术报告,模型同步开源。Phi-4建立在合成数据集、过滤后的公共领域网站数据以及获得的学术书籍和问答数据集的基础上,训练数据量为9.8 T tokens,目标是确保小模型使用专注于高质量和高级推理的数据进行训练。

本次推出的phi-4的模型参数量为14B,是一个稠密的Decoder-Only的Transformers模型,上下文长度为16K tokens,开源协议为MIT。

phi-4经过严格的增强和调整过程,结合了监督微调和直接偏好优化,以确保精确的指令遵守和强大的安全措施。

模型链接:https://modelscope.cn/models/LLM-Research/phi-4/summary

技术报告:https://arxiv.org/pdf/2412.08905

预期用途

主要用例

Phi-4模型旨在加速语言模型的研究,作为生成式人工智能功能的构建模块。它为通用人工智能系统和应用程序(主要是英语)提供用途,这些系统和应用程序需要:

1. 内存/计算受限环境。

2. 延迟受限场景。

3. 推理和逻辑。

超出范围的用例

Phi-4并非专门为所有下游目的而设计或评估,因此:

1. 开发人员在选择用例时应考虑语言模型的常见限制,并在特定下游用例(尤其是高风险场景)中使用之前评估和缓解准确性、安全性和公平性。

2. 开发人员应了解并遵守与其用例相关的适用法律或法规(包括隐私、贸易合规法律等),包括该模型对英语的关注。

3. 本模型卡中包含的任何内容均不应解释为或视为对模型发布所依据的许可证的限制或修改。

数据概览

训练数据集

Phi-4训练数据是用于 Phi-3 的数据的扩展,包括来自以下各种来源的数据:

  • 对公开的文档进行了严格的质量筛选,选取了高质量的教育数据和代码。

相关推荐

暂无评论

发表评论