Lumen_系统开发案例-程序员客栈

技术信息

语言技术
Rust系统类型
算法模型、Windows、Linux行业分类
人工智能

作品详情

行业场景

本项目为个人作品，是一个纯Rust实现的神经网络库，拥有动态计算图与自动微分引擎，因此可胜任一般的神经网络模型构建

功能介绍

使用Rust编写的神经网络库
从零构建深度学习框架：开发轻量级训练/推理框架。实现了基于动态计算图
（DAG）的自动微分引擎 (Autograd)，支持标量与张量级别的反向传播，深入掌握
了神经网络的梯度更新数学原理。
LLM 架构复现与推理：完整复现 Llama (TinyLlama-1.1B) 模型架构，手动实现了
RoPE (旋转位置编码)、GQA (分组查询注意力) 和 SwiGLU 激活函数。通过底层实
现，深入剖析了 Transformer 模型在 Decoding 阶段的注意力机制与计算瓶颈。
模型支持广泛：不仅限于 LLM，框架架构通用，支持 CNN（卷积神经网络）和
RNN/LSTM/GRU（序列模型）的搭建与训练，具备处理非结构化数据（文本、图
像）的底层建模能力。

项目实现

Dynamic Autograd: 实现了基于 Rc 的动态自动微分引擎，支持标量与张量级别的反向传播（Define-by-Run）。
PyTorch-like API: 采用 Module trait 设计，层（Layer）与模型（Model）的组合方式与 PyTorch 直觉一致。
Optimizers & Loss: 内置 SGD、Adam 等优化器及 CrossEntropy、MSE 等损失函数，支持完整的训练闭环。
Static KV Cache: 针对自回归模型（如 Llama）实现了静态 KV Cache 预分配策略，推理过程中 0 动态内存分配，彻底消除内存碎片。
Decoding Optimization: 针对 Batch=1 的 Decoding 阶段，实现了手写并行矩阵-向量乘法（Vector-Matrix Multiplication），突破 BLAS 库在小矩阵上的性能瓶颈。
Zero-Copy Design: 广泛使用内部可变性模式（Interior Mutability）和视图切片，最大程度减少张量数据的内存拷贝。
Rayon Parallelism: 对 GQA Attention、Softmax、RMSNorm 和 Convolution 进行了细粒度的多线程并行优化。