FR5 语音工作站（fr5-station）_系统开发案例-程序员客栈

技术信息

语言技术
Python系统类型
Linux行业分类
人工智能

作品详情

行业场景

针对法奥FR5等工业机器人的语音驱动工作站。用户通过自然语音下达“抓起红盒子”“拧螺丝到B位”等指令，系统经本地Whisper ASR转文字、LLM理解意图并生成/匹配工作流JSON，结合视觉6D位姿与手眼标定执行机器人动作。部署于工控机，支持本地Ollama或云LLM，适用于产线柔性作业、视觉引导抓取、MCP Agent调用等场景，解决传统机器人编程门槛高、无法自然语言交互的痛点。

功能介绍

语音/文本指令解析与工作流执行：支持Whisper本地ASR + LLM意图识别，自动规划或执行预定义/生成的机器人步骤（move、grasp、vision.detect等）。
视觉系统集成：通过文件或HTTP与视觉模块对接，支持手眼标定、物体抓取偏移计算，实时回写6D位姿。
MCP工具服务：提供fairino_mcp供外部Agent调用机器人控制工具，实现LLM Agent驱动的机器人操作。
Web UI与API：Gradio界面支持语音输入、状态监控；FastAPI提供规划、执行、视觉接口（:8000）。
多环境部署：支持Windows/Linux工控机、Docker模拟器、sim/cloud/IPC配置切换，兼容本地与云LLM。

项目实现

基于Python实现station_core工作流引擎、NLU（nlu_ollama/nlu_generate）、robot_exec执行层；集成fairino-python-sdk控制真实/模拟机器人；使用Ollama或DashScope实现LLM工作流生成；Gradio+FastAPI提供UI与API；YAML配置多环境；工作流JSON定义stepType；MCP协议暴露工具；支持vision文件/HTTP对接与手眼标定。