面壁智能与英特尔联合宣布,端侧 AI 领域迎来里程碑式进展:面壁智能正式开源 「面壁小钢炮」端侧系列 MiniCPM 4.0 模型 ,实现端侧支持 128K 长上下文窗口,并通过软硬件协同优化,使推理效率提升2.2 倍。这一突破标志着 AI PC 在本地化智能处理能力上迈出关键一步。
一、软硬协同创新:128K 长文本处理的端侧落地
英特尔与面壁智能从模型开发阶段即展开深度技术协同,基于英特尔硬件架构定制投机解码配置,结合硬件感知草稿模型优化策略与OpenVINO™工具套件,实现端到端推理效率的系统性提升:
稀疏化技术突破:通过分块稀疏注意力机制与深度算子融合,在保证输出质量的前提下,将长文本缓存占用大幅降低,首次在英特尔锐炫™ Pro B60 平台上实现128K 上下文窗口支持。
性能实测数据:相较于稠密模型,处理 128K 文本时首 Token 延迟降低 38%,Token 速率提升 3.8 倍。以 300 页《哈利・波特》小说为例,模型可在90 秒内完成阅读、分析与总结。
二、MiniCPM 4.0 模型:长短文本场景的智能适配
面壁智能推出的 MiniCPM 4.0 系列包含8B、0.5B 两种参数规模,针对长、短文本场景的技术痛点,创新设计 「高效双频换挡」机制 :
长文本场景:处理深度思考任务时,启用稀疏注意力模式,降低计算复杂度,支持 128K 超长文本的流畅处理;
短文本场景:自动切换至稠密注意力模式,确保低延迟与高精度响应。
该机制实现了不同任务类型的动态优化,兼顾效率与准确性。
三、英特尔酷睿 Ultra 平台的 Day 0 全链路支持
作为 AI PC 的核心推动者,英特尔酷睿 Ultra 处理器(含 CPU/GPU/NPU 三引擎)对 MiniCPM 4.0 实现第零日(Day 0)全面适配:
NPU 加速能力:通过硬件驱动的算法优化,结合KV Cache 内存增强技术,为模型提供定制化算力支持;
多场景兼容性:针对不同参数量模型与应用场景(如智能办公、内容创作、数据分析等),提供差异化的平台优化方案,推动端侧 AI 应用的规模化落地。
四、行业影响:开启端侧 AI 多元应用新场景
此次突破不仅提升了 AI PC 的本地化处理能力,更解锁了多领域创新可能:
生产力工具:长篇文档分析、代码审查、学术研究等场景效率大幅提升;
智能交互:支持更自然的多轮对话,推动个人助理、智能客服等应用的端侧部署;
数据隐私保护:敏感数据无需上传云端,直接在设备端完成处理,强化隐私安全。
英特尔表示,未来将与面壁智能持续深化合作,进一步优化长上下文窗口性能,并拓展与更多生态伙伴的技术协同,推动 AI PC 成为 “端侧智能中枢”,构建更智能、高效的未来计算生态。