赵豪 | 3D引擎开发工程师

机器人巡检视觉识别服务

2026|系统架构设计、AI 推理管线开发、VLM Prompt 工程、评测体系搭建、API 接口设计

FastAPIONNX Runtime视觉语言模型(VLM)YOLOv8工业视觉大模型部署

为物理巡检机器人（机器狗）提供视觉 AI 后端服务，支持仪表读数识别、消防区域入侵检测、灭火器在位检测三大核心巡检场景。

基于 FastAPI + Uvicorn 构建异步 REST API 服务，支持 form-data 图片上传与 Base64 JSON 双模式输入
采用 SQLAlchemy async + MySQL 持久化巡检结果，连接池复用，按需启用
全异步请求生命周期，集成全局异常拦截、请求耗时统计、结构化日志
V2 VLM 重构管线，用本地部署的视觉语言模型（Qwen 3.5-9B，OpenAI 兼容 API）替代传统 CV 管线，通过结构化 Prompt 直接输出带置信度的 JSON 结构化结果，显著降低规则维护成本
设计多字段结构化输出协议（显示文本、单位、模式、置信度、可读性评估等 17+ 字段），由 VLM 单次推理完成端到端判读
构建后处理决策层（meter_decision_service），对 VLM 输出进行结构冲突检测、噪声过滤、自动复审分级，弥补 VLM 输出不稳定性
支持多模型快速对比评测，通过离线批量回放工具量化模型切换的影响
全量 API 请求审计系统：自动落盘请求/响应图片及元数据，支持人工复审标注（正常/偏离/异常），可配置保留周期
多环境配置分离（.env.dev / .env.prod），通过 CLI 参数切换，Pydantic Settings 校验
systemd 服务化部署，崩溃自动重启，日志按日期分文件并可 Tee 输出
完整离线评测工具链：Excel 标注工作簿生成、批量回放、多模型对比、多维度指标计算（读数匹配率、单位精确匹配、模式匹配等）