AI语音输入助手 - 快捷键语音转文字工具（Vibe Coding）

技术信息

语言技术
Python系统类型
Windows行业分类
开发工具

作品详情

行业场景

在日常办公与 AI 对话场景中，用户频繁打字效率低，尤其在不方便双手操作键盘时（如边查阅资料边沟通、无障碍辅助需求），急需一种低成本、本地化的语音转文字输入方案。本项目旨在解决快速语音输入与 AI 交互效率问题，适用于 AI 工具使用、在线客服、办公提效等场景。

功能介绍

本项目是一款基于本地 AI 模型的语音输入助手，主要功能模块包括：

实时语音采集：通过麦克风捕获用户语音，支持按住快捷键开始、松开结束的非侵入式交互。
本地语音识别：集成 faster-whisper medium 模型，将语音精准转换为文字，无需联网即可识别。
全局快捷键监听：支持自定义 F1-F12 快捷键，后台监听不干扰正常办公。
智能粘贴发送：自动将识别结果写入剪贴板并模拟粘贴到当前输入框（支持 Chatbox、微信、钉钉等），一键完成发送。
GUI 可视化界面：包含状态指示灯、识别进度条、开始/停止控制，操作简单直观。

项目实现

我在项目中负责整体架构设计与全栈开发，独立完成语音采集、模型推理、快捷键全局监听、GUI 界面开发及最终打包。技术栈采用 Python + faster-whisper（语音识别）+ sounddevice（音频采集）+ pynput（全局热键）+ pyautogui（自动粘贴）+ tkinter（界面）+ pyinstaller（打包）。实现亮点在于完全本地化运行保护用户隐私；难点在于解决全局快捷键与系统热键冲突、跨应用焦点切换及中文输入稳定性问题。