英特尔第一时间深度优化Qwen3大模型升级AIPC能力赋能多样化场景

  九游新闻     |      2025-05-08 05:19

  为持续推动尖端AI模型的创新发展,英特尔始终与业界领先的创新力量保持深度协作。我们欣然宣布,全新升级的英特尔AI解决方案已全面覆盖PC客户端、边缘计算、智能驾舱等场景,在第一时间为Qwen3系列大模型的发布提供技术支撑。

  4. 动态稀疏注意力赋能Qwen3长上下文窗口,解锁端侧Agent新应用

  在本次阿里巴巴开源的新一代通义千问Qwen3系列模型中,最为引人注目的是 30B 参数规模的 MoE混合专家模型 (Mixture of Experts)(Qwen3-30B-MOE-A3B)。该模型凭借其先进的动态可调混合专家架构,在有效提升计算效率方面表现出色, 使其在本地设备(客户端和边缘设备)上具备广阔的应用前景。然而,其在部署环节存在较大难度,且对系统整体资源的消耗依然较高。为应对这些挑战,英特尔与阿里紧密合作,针对 MoE 模型展开了全面的技术适配工作。通过实施多种优化策略,基于OpenVINOTM工具套件成功地将 Qwen 模型高效部署于英特尔硬件平台之上。具体而言,在 ARL-H 64G内存的系统上部署的 30B 参数规模MoE模型,实现了33.97 token/s 1的吞吐量,而且相较于同等参数规模的稠密模型,取得了显著的性能提升。英特尔采用的软件优化策略涵盖了针对稀疏混合专家模型架构(Sparse MoE)的算子融合,针对3B 激活MOE模型定制化的调度和访存优化以及针对不同专家之间的负载均衡, 这些技术能够助力更多MOE模型在英特尔平台上实现高效部署。

  此次发布的 Qwen3系列模型主要集中于中小参数量的稠密架构 LLM,参数规模涵盖 0.6B 至 32B,能够适配更广泛的硬件资源,满足多样化的使用场景需求。英特尔的 CPU、GPU、 NPU 架构全面适配 Qwen 系列模型,为模型的部署进行优化,使用英特尔OpenVINOTM工具套件和PyTorch社区工具都可以为全系列 Qwen 模型在英特尔酷睿Ultra平台 (酷睿Ultra 100系列/200系列) 和英特尔锐炫™ A系列显卡和B系列显卡上的部署实现卓越性能表现。

  值得一提的是,英特尔首次在 NPU上对模型发布提供第零日(Day 0)支持,体现了英特尔和开源生态更加深入的合作,针对不同模型参数量和应用场景提供更多样化的、更有针对性的平台支持。针对从0.6B到高达8B的中小参数量模型全面支持,吞吐量最高达到36.68 token/s 2,借助英特尔Lunar Lake NPU平台和英特尔OpenVINOTM工具套件,可以在保持低能耗的同时,又可以获得优异性能。

  同时,在酷睿Ultra 的iGPU平台上,英特尔持续为模型带来卓越的性能。针对小尺寸的模型,在FP16精度下,最高达到66 token/s2,针对中小尺寸模型,在INT4精度下,最高达到35.83 token/s 2。开发者可以根据适合的使用场景,找到精度和性能的最佳组合。在英特尔锐炫B系列显卡更强大算力加持下,Qwen3-8B模型可实现 70.67 token/s3 ,开发者能够即刻领略到最新模型与英特尔卓越平台能力的超强组合,畅享前沿科技带来的高效与便捷。

  作为生成式AI模型中的轻量级选手,0.6B 参数量的小型 LLM 具备灵活高效的部署优势以及快速迭代更新的能力。然而,在实际应用落地过程中,人们常常对其知识的深度与广度以及处理复杂任务的能力存在顾虑。通过借助特定的数据集对这些小型 LLM 进行端侧微调(Fine-tune),可以提升模型智能,优化用户体验。为此,基于Unsloth和Hugging Face参数高效微调框架(Parameter-Efficient Fine-Tuning, PEFT),英特尔构建了一套完整的端侧解决方案,使模型变得更加智能,AI PC应用也真正变成用户的贴心智能小助手。

  在本次发布的 Qwen3 模型中,我们注意到其 LLM 长上下文能力得到了显著提升。面对有限的算力资源,如何有效利用模型的长上下文能力,避免计算资源消耗呈指数级增长,进而拓展 LLM 在客户端的应用场景,英特尔已给出解决方案。基于动态稀疏注意力,在保证近乎无损精度的前提下,我们可以使长上下文窗口处理速度成倍提升。采用该方案后,Qwen3-8B 模型在英特尔LNL 平台上可实现 32K 的上下文长度。

  这样的长上下文能力,解锁了更多端侧Agent新应用。结合Qwen3更强的Agent和代码能力,以及对MCP协议的加强支持,使得基于端侧大模型调用MCP服务来开发各种AI PC Agent首次成为可能。视频展示了,在英特尔AI PC上,基于Qwen3-8B模型调用必优科技MCP服务自动生成PPT的过程。

  英特尔持续拥抱开源生态,英特尔优化版Ollama也第一时间支持了包括MoE 模型在内的Qwen3 系列模型,使开发者可以在英特尔客户端平台 (如英特尔酷睿Ultra AI PC,英特尔锐炫A/B 系列显卡)上,利用 Ollama框架来搭建基于Qwen3系列模型的智能应用。优化版Ollama还 提供了基于魔搭的模型下载源设置,使得本地开发者可以从魔搭社区更高效下载和部署安装包及模型。

  英特尔在车端舱内对新发布的Qwen3 系列模型,也已经顺滑匹配。基于英特尔车载软硬件解决方案(含第一代英特尔AI增强软件定义汽车(SDV) SOC、刚刚在上海车展发布的第二代SDV SoC NPU,以及英特尔锐炫™车载独立显卡),英特尔能让Qwen3系列模型很快就有机会上车部署,从而充分发挥车端的本地算力。其中,率先在汽车行业内采用了多节点芯粒架构的第二代SDV SOC,其生成式和多模态AI性能,相比上一代,最高可提升十倍4,这让汽车AI体验,如舱内的实时对话、自然语言交互和复杂指令的响应等,都充满AI的灵性。

  在部署模型之前,我们首先需要将原始的PyTorch模型转换为OpenVINOTM的IR静态图格式,并对其进行压缩,以实现更轻量化的部署和最佳的性能表现。通过Optimum提供的命令行工具optimum-cli,我们可以一键完成模型的格式转换和权重量化任务。

  此外我们建议使用以下参数对运行在NPU上的模型进行量化,以达到性能和精度的平衡。

  OpenVINOTM目前提供两种针对大语言模型的部署方案,如果您习惯于Transformers库的接口来部署模型,并想体验相对更丰富的功能,推荐使用基于Python接口的Optimum-intel工具来进行任务搭建。如果您想尝试更极致的性能或是轻量化的部署方式,GenAI API则是不二的选择,它同时支持Python和C++两种编程语言,安装容量不到200MB。