1. 行业背景:Agent已经成为最近行业的最热门方向之一。通过Functional Calling技术,LLM完全可以替代用户完成各种操作,大大解放工作效率。
2. 本项目拟解决的痛点:
1. LLM 生成与落地断层:对话服务和 API 只产出文本,没有操作能力,生成内容无法直接变成文件、图表、文档。
2. Agent 工具碎片化:Cursor 管代码、Gamma 管 PPT、Copilot 管办公——没有一款 Agent 能一站式覆盖全工作流,用户疲于切换。
3. 功能固化、不可扩展:商业 Agent 全是封闭黑盒,用户无法按需添加工具、调整行为,能力边界被锁死。
4. "脑手分离"的间接执行:面对代码之外的任务,只能 LLM 写脚本自己跑 → 报错再改,效率大打折扣。
5. Function Calling 被窄化:多停留在 RAG 和简单 API 调用,远未发挥其作为 Agent "手"的真正潜力。
项目基于 DeepSeek API 构建,通过 Function Calling 为 LLM 装配了 45 个实操工具,覆盖以下能力域:
- 文件系统全操作(14项):目录扫描、文本读写、grep 搜索、精确编辑(git diff 式逐块变更)、复制/移动/删除、PDF 读取(含 OCR 回退)
- Office 全系文档(10项):Word 生成/读取/追加/合并/图片提取,Excel 读写,PPT 生成/读取/图片提取——均通过结构化 JSON 直接生成,不走"写脚本再执行"的弯路
- 图像与视觉(5项):豆包 Vision API 图片分析、即梦 4.0 AI 生图、Draw.io 转图片、HTML 全页截图、图片坐标标注
- 图形与图表(3项):Graphviz 流程图/类图/架构图、Matplotlib 数据图表(8 种图表类型+双Y轴)、力导向自动布局引擎
- 桌面自动化(2项):屏幕截图(全屏/窗口/区域)、鼠标键盘操控(移动/点击/拖拽/输入/快捷键)
- 基础设施与联网(11项):博查 AI 网络搜索、文件下载(异步+进度)、批处理执行(非阻塞+超时控制)、安全数学计算(AST 白名单防注入)、Sub Agent 并行委派、对话日志持久化等
接入 DeepSeek + 豆包 Vision + 即梦 4.0 + 博查 AI 四个国内 API 作为功能模块的工具支撑,采用三层可插拔架构(Schema 注册 → 模块实现 → 基础设施),新增工具只需添加 Schema + 模块文件,无需改动核心
本项目为个人作品,全开发过程由我主导架构设计、DeepSeek API 辅助编码完成。针对 Agent 工程落地中的核心挑战,本项目引入了以下技术方案:
上下文超长治理:通过可配置压缩阈值 + 历史消息 LLM 自动摘要,将早期对话概括压缩,全程保持模型不超上下文窗口。用户无论对话多久,压缩过程几乎无感,解决了长对话崩溃与"失忆"问题。
四层容错防线:
① 工具名校验,拦截 LLM 调用不存在的工具;
② JSON 参数解析验证,非法 JSON 退回 LLM 重新生成;
③ 工具异常捕获,任何模块报错直接返回 LLM 灵活处置,不中断主循环;
④ 超长操作拦截——LLM 误读大型项目或日志导致上下文溢出时,自动回退并提示。
领域规范驱动(Prompt Engineering):项目中维护 29 个 md 规范文件,覆盖技术架构图、UML 六类图、ER/DFD 图、docx 文档处理、图表绘制、Draw.io 全流程等领域的操作标准与推荐工作流。System Prompt 引导 LLM 在每次任务前先检索对应规范——如绘制架构图时自动参考 C4 分层与配色规则,生成 docx 时遵循中西文字体与行距设置标准——显著提升生成质量与一致性。规范文件随时可添加,扩展Agent能力。
Sub Agent 委派架构:单次临时子 Agent 可独立完成项目总结、并行子任务等,避免主会话上下文污染。单次调用支持并行唤起多个 Sub Agent,利用 I/O 等待窗口大幅压缩总耗时,实现"专任务专 Agent"。
日志隔离与轮转:日志存放于项目目录之外,避免 Agent 自读时误载大量无关日志;按日期分目录 + 按大小分页轮转(最多千级备份),排查问题时精准定位目标日志。
声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!

下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态
评论