Lumen产品系统

我要开发同款
洛曦_chen2026年02月13日
24阅读

技术信息

语言技术
Rust
系统类型
算法模型WindowsLinux
行业分类
人工智能

作品详情

行业场景

本项目为个人作品,是一个纯Rust实现的神经网络库,拥有动态计算图与自动微分引擎,因此可胜任一般的神经网络模型构建

功能介绍

使用Rust编写的神经网络库
从零构建深度学习框架:开发轻量级训练/推理框架。实现了基于动态计算图
(DAG)的自动微分引擎 (Autograd),支持标量与张量级别的反向传播,深入掌握
了神经网络的梯度更新数学原理。
LLM 架构复现与推理:完整复现 Llama (TinyLlama-1.1B) 模型架构,手动实现了
RoPE (旋转位置编码)、GQA (分组查询注意力) 和 SwiGLU 激活函数。通过底层实
现,深入剖析了 Transformer 模型在 Decoding 阶段的注意力机制与计算瓶颈。
模型支持广泛:不仅限于 LLM,框架架构通用,支持 CNN(卷积神经网络)和
RNN/LSTM/GRU(序列模型)的搭建与训练,具备处理非结构化数据(文本、图
像)的底层建模能力。

项目实现

Dynamic Autograd: 实现了基于 Rc 的动态自动微分引擎,支持标量与张量级别的反向传播(Define-by-Run)。
PyTorch-like API: 采用 Module trait 设计,层(Layer)与模型(Model)的组合方式与 PyTorch 直觉一致。
Optimizers & Loss: 内置 SGD、Adam 等优化器及 CrossEntropy、MSE 等损失函数,支持完整的训练闭环。
Static KV Cache: 针对自回归模型(如 Llama)实现了静态 KV Cache 预分配策略,推理过程中 0 动态内存分配,彻底消除内存碎片。
Decoding Optimization: 针对 Batch=1 的 Decoding 阶段,实现了手写并行矩阵-向量乘法(Vector-Matrix Multiplication),突破 BLAS 库在小矩阵上的性能瓶颈。
Zero-Copy Design: 广泛使用内部可变性模式(Interior Mutability)和视图切片,最大程度减少张量数据的内存拷贝。
Rayon Parallelism: 对 GQA Attention、Softmax、RMSNorm 和 Convolution 进行了细粒度的多线程并行优化。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论