基于上下文感知的智能桌面 Agent 系统开源项目

我要开发同款
菠萝皮酸2026年03月24日
27阅读

技术信息

语言技术
PythonFlaskTorch
系统类型
WindowsWeb
行业分类
游戏人工智能
开源地址
https://github.com/SeaKeyLoad/DeskMate
授权协议
MIT许可

行业场景

独立开发的一个深度集成于 Windows 系统的多模态 AI 智能体应用。通过监听和分析用户的底层系统操作(窗口切换、键鼠交互、音频输出等),构建实时的桌面语义上下文;结合多级大模型记忆引擎与 RAG 语义工具路由,实现能“看懂”用户屏幕状态、“记住”长期偏好,并主动提供智能反馈的桌面 AI 伴侣。

功能介绍

1.rag记忆模块:
进行对话内容的存储和检索,采用高级RAG架构,实现近期、中期、长期记忆分级。
2.自定义Tool Calling模块:
为AI配备的工具调用模块,可自定义工具使用,具备语义检索工具,任意位置工具调用,工具增删改查都具备。
3.系统交互监听模块:
记录用户点击交互位置和应用程序,自主聚焦用户关注场景,为AI打造‘耳朵’。配置黑盒定点、自适应定位来判定用户点击位置。
4.视觉聚焦模块:
根据监听模块,迅速切换用户主场景,如:在听音乐、玩游戏、写代码、看视频等等,根据不同的场景设计不同的交互视觉策略,主动触发AI交互。
5.pyqt6的可视化:
基于pyqt设计基础交互桌宠,具备交互基础功能。配备基本的流式多表情包。
6.简单的h5聊天页面:
一个简单的web聊天页面,分离桌宠AI。

项目实现

核心职责:独立开发
技术亮点:
1. 基于熵值模型的视觉注意力系统:为解决持续全屏截图导致的性能与 Token 消耗问题,创造性设计“视觉注意力熵池”算法。通过对不同软件类别(Coding, Media, Game 等)设定独立的时间演化与动作加分策略(如打字、复制、发送等行为赋予不同权重),当熵值突破阈值时自适应触发屏幕或窗口级截图,实现“按需看屏”。
2. 语义驱动的动态工具注册器:基于 inspect 和反射机制,自动解析 Python 函数与 Docstring 并动态生成 Pydantic Schema,实现零配置工具接入。引入本地向量模型与LLM意图拆解模块,实现了基于自然语言的工具 RAG 检索。支持多工具协同、参数校验与错误回调机制,大幅提升了 Agent 规划和执行复杂任务的能力。
3. 系统级上下文感知与意图推断:集成 UIAutomation、win32gui 和 pynput,实现非侵入式的桌面行为监听。突破 UI 黑盒,将屏幕点击坐标映射为绝对/自适应基准,精准提取 UI 元素特征并推断用户意图(如“切换代码文件”、“点击地址栏”)。实现键鼠输入防抖聚合与浏览器 URL 动态透视,配合 pycaw 底层音频流检测,精准统计用户的游戏时长与音乐播放记录,转化为 AI 可理解的结构化叙事日志。

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论