Unpacking phi-3-mini: Architecture Driving Phone-Deployable LLM Power
文章介绍了Phi-3系列语言模型及其变体(mini、small、medium),探讨了其技术规格、训练方法及优化策略。Phi-3-mini采用Transformer解码器架构,支持长上下文处理,并通过量化技术实现在移动设备上的高效运行。Phi-3-small引入分组查询注意力机制和块稀疏注意力模块以优化性能与效率。训练采用高质量过滤数据与合成数据结合,并通过监督微调和直接偏好优化提升模型能力。