← 项目作品
机器人巡检视觉识别服务

机器人巡检视觉识别服务

2026|系统架构设计、AI 推理管线开发、VLM Prompt 工程、评测体系搭建、API 接口设计

FastAPIONNX Runtime视觉语言模型(VLM)YOLOv8工业视觉大模型部署

为物理巡检机器人(机器狗)提供视觉 AI 后端服务,支持仪表读数识别、消防区域入侵检测、灭火器在位检测三大核心巡检场景。

技术方案

  • 基于 FastAPI + Uvicorn 构建异步 REST API 服务,支持 form-data 图片上传与 Base64 JSON 双模式输入
  • 采用 SQLAlchemy async + MySQL 持久化巡检结果,连接池复用,按需启用
  • 全异步请求生命周期,集成全局异常拦截、请求耗时统计、结构化日志
  • V2 VLM 重构管线,用本地部署的视觉语言模型(Qwen 3.5-9B,OpenAI 兼容 API)替代传统 CV 管线,通过结构化 Prompt 直接输出带置信度的 JSON 结构化结果,显著降低规则维护成本
  • 设计多字段结构化输出协议(显示文本、单位、模式、置信度、可读性评估等 17+ 字段),由 VLM 单次推理完成端到端判读
  • 构建后处理决策层(meter_decision_service),对 VLM 输出进行结构冲突检测、噪声过滤、自动复审分级,弥补 VLM 输出不稳定性
  • 支持多模型快速对比评测,通过离线批量回放工具量化模型切换的影响
  • 全量 API 请求审计系统:自动落盘请求/响应图片及元数据,支持人工复审标注(正常/偏离/异常),可配置保留周期
  • 多环境配置分离(.env.dev / .env.prod),通过 CLI 参数切换,Pydantic Settings 校验
  • systemd 服务化部署,崩溃自动重启,日志按日期分文件并可 Tee 输出
  • 完整离线评测工具链:Excel 标注工作簿生成、批量回放、多模型对比、多维度指标计算(读数匹配率、单位精确匹配、模式匹配等)