硅谷人工智能公司NexaAI发布端侧AI部署新思路-硬件新闻-PHP中文网

硅谷人工智能公司NexaAI发布端侧AI部署新思路

雪夜

发布： 2025-12-16 19:15:29

原创

111人浏览过

2025年，是ai硬件的全面爆发之年：ai手机、aipc、ai陪伴、ai眼镜、ai智慧座舱……然而，云端大模型主导的ai硬件正在显露隐忧：高昂的api调用成本让中小企业望而却步，隐私数据上传云端的安全风险如影随形，网络延迟与垂域适配不足更是制约着端侧的场景创新

开源端侧小模型崛起正在改写游戏规则：英伟达也在论文《SmallLanguage Models are the Future of Agentic AI》宣告：小模型才是AgenticAI的未来。

1.部署难、表现差？端侧AI发展仍面临痛点

当开发者们摩拳擦掌，想要用先进小模型打造创新应用时，现实又浇了一盆冷水：

部署门槛高：端侧平台的推理框架并不像云端那样容易适配：工具链有CUDA、QNN、ANE、ROCm、Openvino,openCL, metal, vulkan等等五花八门……耗费数月踩坑仍难跑通最新模型；

性能表现差：即使顺利通过部署，由于推理引擎适配不当导致精度下降、输出缓慢、能耗飙升，让端侧应用体验大打折扣

跨平台噩梦：不同硬件（PC，手机，车机，IoT）、心片（高通、Intel、AMD、苹果）间的适配壁垒，让跨设备应用开发重复“踩坑”，效率极低。例如可以在高通PC上运行的多模态模型无法自动移植到高通车载端。

最新的模型支持差：NPU上普遍只能跑1年以前发布的模型，无法使用最新的模型（如Mistral3,Qwen3-VL），模型需要等待非常久的时间才能得到支持。

2.端侧AI部署的新思路

最近美国硅谷明星端侧AIStartup Nexa AI公司在github上发布的NexaSDK，为全球开发者带来了破局新思路。这个项目致力于解决长期存在于端侧模型部署中的共性问题，让AI模型在手机、PC、汽车、IoT等边缘设备上的落地变得前所未有的简单。

github可搜索：nexa-sdk（如果认为对您工作有帮助，欢迎为开源作者star）

NexaSDK 构建了4大核心优势，解决端侧AI部署的核心痛点：

跨平台统一推理框架：NexaSDK由NexaML引擎提供支持，该引擎是从心片Kernel层打造的跨硬件平台统一推理引擎（支持电脑，手机，车，IoT，机器人，以及AR眼镜等设备），并支持三种端侧模型格式：GGUF格式、MLX格式以及NexaAI 自主研发的.nexa格式。

NPU,GPU, CPU深度适配：NexaSDK可在多种算力平台的NPU、GPU、CPU上本地运行各类人工智能模型—— 它不仅使用简单、灵活性高，而且性能佳。特别是支持各大算力平台的NPU心片（覆盖高通HexagonNPU, 苹果NPU，AMDRyzen AI NPU，以及IntelNPU），充分利用NPU性能，可以解决过往端侧模型在CPU/GPU上运行带来的输出速度慢、能耗高的问题，能效比是CPU和GPU的9倍以上。

硅谷人工智能公司NexaAI发布端侧AI部署新思路

任意多模态模型Day-0支持：面对快速更新的开源模型市场，NexaSDK能够做到在新模型推出的第一时间适配各个硬件后端（NPU,GPU, CPU），并且支持多种模态Vision,Text, Audio, 以及CV模型；

低代码极致易用：使用一行代码即可调用本地模型，OpenAIAPI 兼容设计让开发者无缝衔接代码，大大降低了端侧AI的应用门槛。

NexaSDK与其他端侧SDK的比较优势：

硅谷人工智能公司NexaAI发布端侧AI部署新思路

NEXASDK一经发布也获得了包括AMD/高通的诸多行业认可：

硅谷人工智能公司NexaAI发布端侧AI部署新思路

3.快速上手：快速解锁端侧AI能力

根据使用方式和平台，NexaSDK提供不同的工具包：

NexaCLI：可在MacOS/Windows/Linux使用命令行终端速测试模型及运行本地服务器；同时支持在Linux系统的容器化环境中运行AI模型；

NexaSDK Python开发工具：可在MacOS/Windows/Linux平台使用Python完整运行SDK

NexaSDK Android/iOS开发工具:支持在移动端设备跨NPU/GPU/CPU推理的安卓/iOS开发工具包

NexaSDK实现了全平台支持，全球首次统一支持苹果NPU、IntelNPU、AMDNPU、高通NPU等4类NPU推理加速心片，让端侧模型边缘推理拥有了更广泛的实现和应用场景。

3.1Nexa SDK CLI快速体验

下载路径：

可以从NexaAI官网或者githubnexa-sdk项目下载NexaCLI。

硅谷人工智能公司NexaAI发布端侧AI部署新思路

一行代码运行模型

NexaSDK支持LLM、多模态、音频（ASR\TTS）、CV、生图等多种端侧模型。例如：

多模态模型

NexaSDK在Qwen3VL发布当天 Day-0跨平台支持，领先 llama.cpp/ollama 三周，并得到Qwen官方认可

硅谷人工智能公司NexaAI发布端侧AI部署新思路

车载多模态模型（适配高通SA8295P心片NPU）

硅谷人工智能公司NexaAI发布端侧AI部署新思路

相比于其他框架，NexaSDK对于新模型的支持速度还是非常迅速，可以访问NexaAI官网和NexaAI huggingface官方模型仓库查看使用更多精选的模型。

硅谷人工智能公司NexaAI发布端侧AI部署新思路

目前NexaCLI支持MacOS、Windows、Linux（并支持Docker运行），同时提供PythonAPI, IOS Swift API、AndroidKotlin/JAVA API开发工具包。

QoQo

QoQo是一款专注于UX设计的AI工具，可以帮助UX设计师生成用户角色卡片、用户旅程图、用户访谈问卷等。

172

查看详情

兼容OpenAIAPI

NEXACLI还提供OpenAI兼容的RESTAPI ，一行命令即可访问服务接口，无缝覆盖对话生成、文本嵌入、文档重排序、图像生成等核心场景，满足多样化开发需求。

硅谷人工智能公司NexaAI发布端侧AI部署新思路

/v1/chat/completions- 用于LLM和VLM的对话生成

/v1/embeddings- 为文本生成向量嵌入

/v1/reranking- 根据查询相关性对文档重新排序

/v1/images/generations- 根据提示生成图像

更多命令可以查看官方文档

3.2Nexa SDK Python 开发工具包

NexaSDK Python工具包，适配MacOS、Windows、Linux等全平台优化后端，无论是本地开发还是企业级应用，都能使用Python更高效落地。可以使用PythonAPI一键运行LLM、VLM、OCR、ASR、TTS、图像生成、说话人分离、键值缓存、采样配置、对话模板以及错误处理等。

硅谷人工智能公司NexaAI发布端侧AI部署新思路

3.3Nexa SDK Android/iOS开发工具包

下载地址：

NexaSDK Android工具包:可直接从Maven中央仓库获取，或访问githubnexa-sdk项目

硅谷人工智能公司NexaAI发布端侧AI部署新思路

NexaSDK iOS工具包可以从githubnexasdk-mobile-iOS-framework项目获取。

Android设备上支持直接运行的包括LLM、VLM、Embedding模型、OCR模型、CV模型、ASR模型、rerank模型以及生图模型，且支持通过NPU、GPU和CPU进行推理。通过Kotlin/JavaAPI 轻松集成，性能提升2倍，能效比优化9倍，重塑移动智能体验。

使用简洁的SwiftAPI，开发者可在iOS/macOS设备上直接运行LLM、VLM、Embedding模型、ASR模型以及rerank模型。目前，ASR模型与Embedding模型已支持苹果神经网络引擎（ANE）加速，其他模型则基于图形处理器（GPU）与中央处理器（CPU）运行，同时可以达到性能提升2倍，能效比优化9倍的惊艳体验。

硅谷人工智能公司NexaAI发布端侧AI部署新思路