陆兮科技 - 陆兮AI大模型

陆兮AI类脑大模型家族

复刻人类大脑的运算与存储机制，重新定义AI效率边界

端侧模型

LuxiLLM 1B-7B

极致轻量化
日常功能强化
100%离线部署

服务器模型

LuxiLLM 30B-58B

精通混合专家
动态路由机制
适用各类企业场景

定制模型

LuxiLLM 70B-100B

20+行业场景定制
专业语料定制
极强拆解能力

支持预训练、微调、强化学习，满足垂类大模型定制化需求。
行业场景持续拓展中......

稀疏激活推理机制

借鉴大脑定向激活逻辑，推理效率提升300%+，能源消耗降低60%，适配低功耗边缘设备。

隐状态管理存储机制

复现“按需取数”模式，计算量降低50%，长文本处理速度提升数倍。

无矩阵乘法算法

“点乘+加法”替代传统矩阵乘法，内存消耗降低70%，适配端侧CPU、GPU、NPU等芯片。

按5类核心维度评分：CPU速度、CPU存储占用、NPU速度、NPU存储占用、综合表现

CPU推理速度行业领先

对比不同模型在CPU环境下的prefill/decode吞吐与响应延迟

解码与预填充双向领先，全面超越竞品

在CPU（Snapdragon 8 Gen 3）长上下文推理场景下，LuxiLLM-0.6B解码速度（Decode）快出竞品 4.21倍，预填充速度（Prefill）快出竞品 4.86倍。端侧推理更流畅、响应更迅速。

更小内存，跑更长文本

对CPU场景下模型权重、KV Cache与运行期内存占用规模

解码与预加载内存双优，长文本场景优势明显

在CPU（Snapdragon 8 Gen 3）上，LuxiLLM-0.6B在1k~32k全长度范围内，解码内存与预加载内存均低于Qwen3-0.6B。尤其在32k超长文本下，解码内存节省约68%，预加载内存节省约47%，让端侧设备也能轻松跑长上下文。

NPU推理速度行业领先

对比端侧NPU推理速度、批次处理能力与关键路径时延表现

解码快 2.4 倍，预填充快 1.8 倍

在 Snapdragon 8 Elite Gen 5 NPU 上，LuxiLLM-1.7B 展现出极致的推理效率。长文本场景下，解码速度稳定为 Qwen3-1.7B 的 2.4 倍，预填充速度达到 1.5~1.8 倍。无论是实时对话还是长文档处理，都能实现无延迟响应。

KV缓存压缩5倍，长文本推理无压力

对比NPU侧模型编译后体积、缓存占用与部署空间需求

动态KV缓存内存大幅压缩，8k 长度仅占竞品五分之一

在 NPU（Snapdragon 8 Elite Gen 5）上，LuxiLLM-1.7B 通过底层存储与计算优化，显著降低了长文本推理时的 KV Cache 内存占用。在处理 8k 长度（约上万字）文本时，动态内存仅约 0.09GB，而竞品高达 0.45GB，仅为竞品的 1/5，为端侧部署释放了宝贵的内存空间。

“小”模型，“大”能力

统一展示端侧模型能力的综合平衡表现

解码与预加载内存双优，长文本场景优势明显

在各个量级的模型中，LuxiLLM在科学与通用能力上均持平或优于Qwen3。LuxiLLM在保持极致推理效率与低内存占用的同时，不牺牲模型效果，真正做到了“又快又好又省”。