GSSPAI产品系统

我要开发同款
金校宇2026年02月19日
26阅读

技术信息

语言技术
Torch
系统类型
Windows
行业分类
人工智能

作品详情

行业场景

这是一个《原神》游戏的按键可视化项目的实现和ai代肝的尝试(代肝未实现好的效果)。
背景:由于本人游戏操作太差,网上大神的视频基本都没有按键可视化,所以想构建一个视频画面-键鼠操作的模型。后续因为有了画面-键鼠操作对,就尝试加入了文本指令,构建ai游戏模型。

功能介绍

功能介绍:
1、数据采集脚本:实现了游戏画面-键鼠的同步采集,驱动级鼠标监听方案完全规避了3d开放世界游戏和fps游戏等游戏对鼠标位置的锁定。同时解决了游戏灵敏度和屏幕分辨率和屏幕比例不一致导致的问题。
2、数据清洗脚本:实现了数据的清洗,在保留数据时序不乱的情况下对其进行清洗,防止因数据不平衡导致的训练失败。
3、场景分割脚本:(此为游戏代肝部分)实现了多线程特征提取、多维度轻量特征(画面亮度分布、HSV颜色直方图、边缘密度、动作特征)整合、多线程数据保存。
4、数据标注程序:(此为游戏代肝部分)实现了基于tkinter的数据标注,主要是给视频打上动作标签。
5、训练循环:包含模型结构(经典的cnn和全连接)、dataset结构和训练脚本。按键和代肝共两套。
6、按键推理脚本:基于游戏画面的按键推理。
7、ai代肝模型脚本:基于多vlm智能体(含微调)的游戏代肝推理脚本。

项目实现

全部由我自己完成。分两部分:

第一部分-游戏画面推理键鼠:
稍显简单,主要是经典的数据管道和cnn模型。
我遇到的困难:游戏锁定鼠标位置,无法对鼠标进行采集
解决方案:不再偷懒,使用更复杂和低级的驱动级鼠标采集

第二部分-游戏代练:
模仿2025年的成功案例(SIMA2、Lumine等),使用更轻量的2b vlm模型进行微调,将电脑配置从H100*4下放到rtx 3060(主要是我没那么多钱)。
整体分为双层:1、高级指挥vlm,使用api调用解决。2、低级执行vlm,就是上述2b的vlm模型,这里其实是将推理层和执行底层合并了。
大模型实时推理的时序性问题解决:最多精力耗费,最终决定让模型推理当前时间后1秒的操作,在推理时使用两个同样的模型异步合作推理,互相接力,实现无缝衔接推理。
数据量问题:须使用极多数据确保学习效果,但我只用了极少量标注和未标注数据进行训练,最终效果不佳。
长序列推理问题:绝大多数任务不可能只有一秒,所以我使用长序列推理,以新增token为基础,让模型输出这几个token,利用大语言模型自带的上下文能力实现整体的衔接
数据标注问题:开发数据标注工具,自动加入上述token

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论