赵豪 | 3D引擎开发工程师

G1人形机器人二次开发

2024|产品设计、软件架构设计与开发、前后端开发、AI开发、硬件接入

机器人开发UnityGodotAI-AgentPython人脸识别

对宇树G1人形机器人进行二次开发，包括智能问答、智能交互、访客预约、展厅讲解、舞蹈动作控制表演等，外接硬件设备设计与适配。

技术方案

本地部署人脸识别算法+TTS进行人脸识别和访客引导
本地部署RAG大模型与知识库，支持上传文档多媒体文件等
本地部署开发TTS，支持无限合成内容长度和时长，支持中英混读，支持标点和电话等智能解析，RTX4060Ti上实测首字20-50ms内回复
本地部署ASR识别，支持Websocket长连接流式识别，支持HTTP请求本地识别
机器人客户端ASR到LLM以及TTS全流程流式响应，最短反馈时间<1s，对速度和优化进行极致优化
配备Unity开发的Android平台的Pad控制端，除了语音输入外还支持Pad进行同步控制
使用Godot开发Andorid机器人动作和舞蹈控制端，控制器人切换不同运控模式和动作以及舞蹈和语音播放等，适合表演使用
语音交互全链路：自研 VAD 静音检测 → 流式 ASR 语音识别（WebSocket 优先 + 机器人内置 ASR 兜底双通道）→ LLM 大模型对话（DeepSeek + 自建后端双路由）→ 伪流式 TTS 分段合成与播放，实现 <2s 首字延迟的实时语音对话
语音指令控制系统：基于 YAML 规则引擎 + 关键词匹配实现 30+ 条语音指令意图识别，覆盖运动控制（前进/后退/转向/阻尼/走跑切换）、肢体动作（挥手/握手/拥抱/飞吻等 13 种）、角色风格切换、对话开关等，支持前端远程启停单条指令
机器人运控集成：通过 DDS 协议与 G1 底层通信，封装 LocoClient 运动控制（FSM 状态机切换/速度矢量控制）与 ArmActionClient 手臂动作，实现语音→动作的端到端闭环，包含自动姿态切换逻辑（阻尼→站立→走跑）
WebSocket 实时服务：基于 asyncio + websockets 构建双向通信服务，支持前端远程控制（模式切换/TTS 播报/打断/配置热更新）、机器人状态实时推送（电量/信号/运动状态/运行时状态），具备广播与点对点消息路由能力
多模式多角色架构：设计待机/朗读/问答三种运行模式 + 5 种角色风格（初始角色/展厅讲解员/访客引导者 + 专业严谨/亲和通俗/活泼趣味），运行时可通过语音或 WebSocket 热切换，角色切换自动触发个性化开场白
系统监控闭环：实现 WiFi 信号强度（dBm→百分比转换 + SSID 读取，支持 iw/iwconfig//proc/net/wireless 多源降级）、后端服务健康检测（TCP 建连延时探测 + 缓存防抖）、机器人电量采集（DDS 订阅 BMS 状态），统一通过 WebSocket 推送监控面板
音频设备管理：PulseAudio 自动化配置，启动时自适应检测 USB/板载声卡并设定默认输入输出设备，支持音量远程调节与音频服务 systemd 热重启
展厅业务逻辑：集成人脸识别结果处理，根据身份类别（员工/已预约访客/审核中访客/陌生人）执行差异化引导流程与门禁联动；对话历史记录持久化与前端检索
工程化设计：分层架构（adapters/services/config/ai_chatbot/app）+ 环境变量配置分离（.env.local/.env.dev）+ systemd 服务部署 + 异步并发编排（asyncio 全链路），兼顾机器人端与 WSL 开发环境兼容

G1人形机器人二次开发

技术方案

项目图片