Project Agent_系统开发案例-程序员客栈

技术信息

语言技术
Python系统类型
Windows行业分类
人工智能

作品详情

行业场景

1. 行业背景：Agent已经成为最近行业的最热门方向之一。通过Functional Calling技术，LLM完全可以替代用户完成各种操作，大大解放工作效率。
2. 本项目拟解决的痛点：
1. LLM 生成与落地断层：对话服务和 API 只产出文本，没有操作能力，生成内容无法直接变成文件、图表、文档。
2. Agent 工具碎片化：Cursor 管代码、Gamma 管 PPT、Copilot 管办公——没有一款 Agent 能一站式覆盖全工作流，用户疲于切换。
3. 功能固化、不可扩展：商业 Agent 全是封闭黑盒，用户无法按需添加工具、调整行为，能力边界被锁死。
4. "脑手分离"的间接执行：面对代码之外的任务，只能 LLM 写脚本自己跑 → 报错再改，效率大打折扣。
5. Function Calling 被窄化：多停留在 RAG 和简单 API 调用，远未发挥其作为 Agent "手"的真正潜力。

功能介绍

项目基于 DeepSeek API 构建，通过 Function Calling 为 LLM 装配了 45 个实操工具，覆盖以下能力域：
- 文件系统全操作（14项）：目录扫描、文本读写、grep 搜索、精确编辑（git diff 式逐块变更）、复制/移动/删除、PDF 读取（含 OCR 回退）
- Office 全系文档（10项）：Word 生成/读取/追加/合并/图片提取，Excel 读写，PPT 生成/读取/图片提取——均通过结构化 JSON 直接生成，不走"写脚本再执行"的弯路
- 图像与视觉（5项）：豆包 Vision API 图片分析、即梦 4.0 AI 生图、Draw.io 转图片、HTML 全页截图、图片坐标标注
- 图形与图表（3项）：Graphviz 流程图/类图/架构图、Matplotlib 数据图表（8 种图表类型+双Y轴）、力导向自动布局引擎
- 桌面自动化（2项）：屏幕截图（全屏/窗口/区域）、鼠标键盘操控（移动/点击/拖拽/输入/快捷键）
- 基础设施与联网（11项）：博查 AI 网络搜索、文件下载（异步+进度）、批处理执行（非阻塞+超时控制）、安全数学计算（AST 白名单防注入）、Sub Agent 并行委派、对话日志持久化等
接入 DeepSeek + 豆包 Vision + 即梦 4.0 + 博查 AI 四个国内 API 作为功能模块的工具支撑，采用三层可插拔架构（Schema 注册 → 模块实现 → 基础设施），新增工具只需添加 Schema + 模块文件，无需改动核心

项目实现

本项目为个人作品，全开发过程由我主导架构设计、DeepSeek API 辅助编码完成。针对 Agent 工程落地中的核心挑战，本项目引入了以下技术方案：
上下文超长治理：通过可配置压缩阈值 + 历史消息 LLM 自动摘要，将早期对话概括压缩，全程保持模型不超上下文窗口。用户无论对话多久，压缩过程几乎无感，解决了长对话崩溃与"失忆"问题。
四层容错防线：
① 工具名校验，拦截 LLM 调用不存在的工具；
② JSON 参数解析验证，非法 JSON 退回 LLM 重新生成；
③ 工具异常捕获，任何模块报错直接返回 LLM 灵活处置，不中断主循环；
④ 超长操作拦截——LLM 误读大型项目或日志导致上下文溢出时，自动回退并提示。
领域规范驱动（Prompt Engineering）：项目中维护 29 个 md 规范文件，覆盖技术架构图、UML 六类图、ER/DFD 图、docx 文档处理、图表绘制、Draw.io 全流程等领域的操作标准与推荐工作流。System Prompt 引导 LLM 在每次任务前先检索对应规范——如绘制架构图时自动参考 C4 分层与配色规则，生成 docx 时遵循中西文字体与行距设置标准——显著提升生成质量与一致性。规范文件随时可添加，扩展Agent能力。
Sub Agent 委派架构：单次临时子 Agent 可独立完成项目总结、并行子任务等，避免主会话上下文污染。单次调用支持并行唤起多个 Sub Agent，利用 I/O 等待窗口大幅压缩总耗时，实现"专任务专 Agent"。
日志隔离与轮转：日志存放于项目目录之外，避免 Agent 自读时误载大量无关日志；按日期分目录 + 按大小分页轮转（最多千级备份），排查问题时精准定位目标日志。