MuseScore乐谱爬取产品系统

我要开发同款
11阅读

技术信息

语言技术
PythonGo
系统类型
Linux
行业分类
音视频多媒体内容平台

作品详情

行业场景

行业背景
随着 Sora、MusicGen、AudioCraft
等多模态大模型的兴起,高质量、结构化的音乐符号数据(乐谱)成为训
练音乐理解与生成模型的核心资产。MuseScore
作为全球最大的用户原创乐谱平台(300万+曲目),其 MSCZ
原生格式包含完整的音符、节拍、调号、乐器等结构信息,是目前可获取
的最高质量符号音乐数据源。

数据价值
- MSCZ 格式可无损转换为 MusicXML、MIDI、PDF、MP3 等多种下游格式
- 覆盖古典、流行、爵士等全风格,钢琴、弦乐、管乐等全乐器
- 含完整元数据(作曲家、调性、拍号、时长、演奏难度等)
- 可直接用于音乐 SFT(监督微调)、乐谱识别、自动编曲等任务

项目定位
为大模型训练团队提供大规模、结构化、多格式的乐谱数据集,目标采集
量 200万条,是国内为数不多具备该平台完整数据采集能力的技术团队。

功能介绍

一、ID 发现与采集
通过逆向官方 App 接口,以标题关键词搜索方式批量获取乐谱唯一标识
(ssid),支持多账号凭证池轮转、自适应限速、429
错误自动规避,持续积累 ssid 资产库。

二、加密文件下载
基于 get_s 签名接口下载平台加密格式(XTZ),支持代理节点池负载均
衡、断点续传、失败重试,单机下载吞吐可横向扩展。

三、原生格式解密
通过 redroid 安卓模拟器集群与 mitmdump 流量拦截,驱动官方 App
在真实运行环境中完成 XTZ → MSCZ
解密,无需破解加密算法,完全还原平台原生文件。

四、多格式转换
基于 webmscore 引擎将 MSCZ 批量转换为
MSCX、MusicXML、PDF、MIDI、MP3 等格式,满足下游多样化数据需求。

项目实现

利用 Android 容器集群在真实 App
运行环境中完成解密,无需逆向加密算法:

- 部署 40+ redroid 安卓模拟器容器,每容器安装官方 MuseScore APK
- mitmdump 作为透明代理,拦截 /v2/score/file 响应并替换为本地
XTZ 文件
- adb 自动化控制 App 触发下载行为,App 解密后写入
/sdcard/Download/
- adb pull 批量拉取 MSCZ 文件,累计解密 20 万+

示例图片

声明:本文仅代表作者观点,不代表本站立场。如果侵犯到您的合法权益,请联系我们删除侵权资源!如果遇到资源链接失效,请您通过评论或工单的方式通知管理员。未经允许,不得转载,本站所有资源文章禁止商业使用运营!
下载安装【程序员客栈】APP
实时对接需求、及时收发消息、丰富的开放项目需求、随时随地查看项目状态

评论