巨视-关注人工智能

面壁智能与英特尔联合宣布，端侧 AI 领域迎来里程碑式进展：面壁智能正式开源「面壁小钢炮」端侧系列 MiniCPM 4.0 模型，实现端侧支持 128K 长上下文窗口，并通过软硬件协同优化，使推理效率提升2.2 倍。这一突破标志着 AI PC 在本地化智能处理能力上迈出关键一步。

一、软硬协同创新：128K 长文本处理的端侧落地

英特尔与面壁智能从模型开发阶段即展开深度技术协同，基于英特尔硬件架构定制投机解码配置，结合硬件感知草稿模型优化策略与OpenVINO™工具套件，实现端到端推理效率的系统性提升：

稀疏化技术突破：通过分块稀疏注意力机制与深度算子融合，在保证输出质量的前提下，将长文本缓存占用大幅降低，首次在英特尔锐炫™ Pro B60 平台上实现128K 上下文窗口支持。

性能实测数据：相较于稠密模型，处理 128K 文本时首 Token 延迟降低 38%，Token 速率提升 3.8 倍。以 300 页《哈利・波特》小说为例，模型可在90 秒内完成阅读、分析与总结。

二、MiniCPM 4.0 模型：长短文本场景的智能适配

面壁智能推出的 MiniCPM 4.0 系列包含8B、0.5B 两种参数规模，针对长、短文本场景的技术痛点，创新设计「高效双频换挡」机制：

长文本场景：处理深度思考任务时，启用稀疏注意力模式，降低计算复杂度，支持 128K 超长文本的流畅处理；

短文本场景：自动切换至稠密注意力模式，确保低延迟与高精度响应。

该机制实现了不同任务类型的动态优化，兼顾效率与准确性。

三、英特尔酷睿 Ultra 平台的 Day 0 全链路支持

作为 AI PC 的核心推动者，英特尔酷睿 Ultra 处理器（含 CPU/GPU/NPU 三引擎）对 MiniCPM 4.0 实现第零日（Day 0）全面适配：

NPU 加速能力：通过硬件驱动的算法优化，结合KV Cache 内存增强技术，为模型提供定制化算力支持；

多场景兼容性：针对不同参数量模型与应用场景（如智能办公、内容创作、数据分析等），提供差异化的平台优化方案，推动端侧 AI 应用的规模化落地。

四、行业影响：开启端侧 AI 多元应用新场景

此次突破不仅提升了 AI PC 的本地化处理能力，更解锁了多领域创新可能：

生产力工具：长篇文档分析、代码审查、学术研究等场景效率大幅提升；

智能交互：支持更自然的多轮对话，推动个人助理、智能客服等应用的端侧部署；

数据隐私保护：敏感数据无需上传云端，直接在设备端完成处理，强化隐私安全。

英特尔表示，未来将与面壁智能持续深化合作，进一步优化长上下文窗口性能，并拓展与更多生态伙伴的技术协同，推动 AI PC 成为 “端侧智能中枢”，构建更智能、高效的未来计算生态。

主页

电话

位置

联系我们