Phase 01 批次 1-3: 单摄像头人脸追踪基础设施

实现 ESP32-S3 上单摄像头人脸追踪的核心代码骨架，替代 Grove Vision AI V2 模块，通过 UART 发送人脸坐标驱动 RP2040 控制的眼球/YAW 舵机。 ## 规划文档（docs/phase-01-face-tracking/） - GOAL.md Phase 目标与 5 大成功标准 - RESEARCH.md esp-dl v3.2/3.3 + human_face_detect 0.4.1 技术调研 - PLAN.md 15 个原子任务的执行计划（T01-T15） - PLAN_CHECK.md 计划审查报告（PASS_WITH_NOTES） - PROGRESS.md 执行进度追踪（批次 1-3 已完成） ## 批次 1：依赖与开关（T01-T03） - main/idf_component.yml 新增 esp-dl ~3.3.0 + human_face_detect 0.4.1（仅 S3/P4） esp-sr 从 ~2.2.0 升级到 ~2.3.1，解决 esp-dsp 1.6/1.7 版本冲突 - main/Kconfig.projbuild 新增 CONFIG_XIAOZHI_ENABLE_FACE_TRACKING 开关（默认 y，depends on S3）新增 CONFIG_XIAOZHI_FACE_TRACKING_FPS_CHOICE（5/10/15） - main/boards/common/esp32_camera.{h,cc} 新增 ProbeFrameCapture() 最小 V4L2 DQBUF/QBUF 探针（T01） - main/application.cc Start() 末尾调用 probe 验证摄像头硬件链路 ## 批次 2：人脸检测核心（T04-T06） - main/boards/common/esp32_camera.{h,cc} 新增 FrameRef 结构体 + CaptureForDetection/ReleaseDetectionFrame 双超时 mutex 策略：face_tracker 10ms timeout 跳帧，Capture() RAII guard - main/face_tracker.{h,cc}（新建） Core 0 / 优先级 2 / 栈 8KB 独立任务集成 esp-dl HumanFaceDetect 推理坐标归一化 cx*224/W-112，匹配 RP2040 pixel_centre=112 多人脸遍历挑 score 最高，避免多脸时眼球摇摆三重保护：Kconfig depends on S3 + 源文件 #if 守卫 + CMake 条件排除 - main/CMakeLists.txt 非 S3 目标从 SOURCES 移除 face_tracker.cc ## 批次 3：UART 协议扩展（T07） - main/uart_component.{h,cc} 新增 uart_send_face(x,y) 发送 face:x,y\r\n 协议 extern "C" 链接名配合 face_tracker 的弱符号声明全局 TX mutex 保护所有 UART 写入，防并发帧交织 uart_send_string 同步加锁保持一致性 ## 编译验证 idf.py build 通过，固件 2.51MB / 剩余 1.46MB (36% free) 当前 face_tracker 未被 application 激活（留到 T11）， UART/摄像头现有功能零影响。 ## 未完成（下次继续） - T01 硬件 probe 实机验证 - T08-T10 RP2040 端 parse_face + facetrack 双数据源改造 - T11-T15 application 接入 + 端到端联调 + 性能调优 + 最终验收 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>
2026-04-17 18:24:27 +08:00 · 2026-04-17 18:24:27 +08:00 · e95d0c414e
commit e95d0c414e
parent e61d8f2175
15 changed files with 2768 additions and 1 deletions
--- a/docs/phase-01-face-tracking/GOAL.md
+++ b/docs/phase-01-face-tracking/GOAL.md
@ -0,0 +1,92 @@
 # Phase 1: 单摄像头人脸追踪
 ## 目标
 将 ESP32-S3 上的 OV3660 摄像头用作人脸追踪数据源，替代 Grove Vision AI V2 模块，驱动 RP2040 控制的眼球（EYL/EYR）和身体（YAW）舵机追踪人脸移动。
 ## 硬件环境
 - **ESP32 模组**: ESP32-S3-WROOM-1-N16R8（16MB Flash + 8MB PSRAM）
 - **摄像头**: OV3660 DVP 接口（已完成 3 根飞线：GPIO 35→14, 36→41, 37→42）
 - **RP2040**: Raspberry Pi Pico（直接焊在 CogNog V1.0 PCB 上）
 - **舵机**: 9 个 180° 标准舵机（KPower M0090 / MG90S 180°）
 - **无 Grove Vision AI V2**: 本 Phase 的核心目的是省去此模块
 ## 当前架构（改造前）
 ```
 OV3660 → ESP32-S3（仅显示/视觉辅助功能）
 Grove Vision AI V2 → UART 921600 → RP2040 的 GP0/GP1
                                      ↓
                                   facetrack() 解析 boxes
                                      ↓
                                   驱动 EYL/EYR/PIT/YAW
 ```
 ## 目标架构（改造后）
 ```
 OV3660 → ESP32-S3
         ├── 视觉辅助功能（保留）
         └── 人脸检测推理（新增）
                 ↓
             提取人脸中心 (x, y) 偏移
                 ↓
             UART 115200 → RP2040 的 GP4/GP5
                 ↓
             coms.py 识别 face: 协议，注入 facetrack()
                 ↓
             驱动 EYL/EYR/PIT/YAW（复用现有逻辑）
 ```
 ## 成功标准（Success Criteria）
 必须同时满足：
 1. **性能指标**
   - ESP32 摄像头帧率 ≥ 5 FPS（QVGA 320×240 或更低分辨率）
   - 人脸检测延迟 ≤ 200ms
   - 坐标传输延迟 ≤ 50ms
 2. **功能正确性**
   - 检测到人脸时，ESP32 通过 UART 发送格式化坐标到 RP2040
   - RP2040 接收坐标后眼球和身体正确追踪人脸方向
   - 人脸偏离摄像头中心时，眼球先转动，YAW 延迟跟随（保留现有逻辑）
   - 无人脸时，3 秒后 `grove_active` 标志自动置为 False，回退到随机动画
 3. **不破坏现有功能**
   - 语音对话（WebSocket + Opus 音频编解码）无卡顿、无断连
   - 唤醒词检测正常工作
   - LCD 显示（如有）正常刷新
   - 现有 UART 状态指令（`"idle"`, `"listening"`, `"speaking"` 等）继续工作
 4. **代码质量**
   - ESP32 端人脸检测任务运行在 Core 0，与音频/WiFi 隔离
   - PSRAM 合理使用，不出现 OOM
   - UART 协议向后兼容（不影响 RP2040 现有状态指令解析）
   - 所有新增代码有清晰的中文注释
 5. **可维护性**
   - 支持无 Grove 和有 Grove 两种模式自动切换（复用已有的 `grove_active` 机制）
   - ESP32 侧面能通过 menuconfig 或宏定义开关人脸检测功能
 ## 涉及的代码库
 - **ESP32 端**: `/Users/rdzleo/Desktop/CogletESP-camera-version`（当前目录）
 - **RP2040 端**: `/Users/rdzleo/Desktop/CogletESP-CogletESP/RP2040`（另一个本地目录）
 > 注意：RP2040 侧的 `coms.py` 和 `main.py` 已经做过一次增强动画改造（2026-04-17）。本 Phase 需要在此基础上继续增加 ESP32 人脸坐标协议支持。
 ## 非目标（Out of Scope）
 - 不做人脸识别（谁的脸），只做人脸检测（有没有脸 + 在哪里）
 - 不做多人追踪（只追踪第一张检测到的脸）
 - 不实现 180° 全景追踪（保持原 Grove 方案的追踪范围）
 - 不改变眼球/YAW 的追踪算法（复用 `main.py facetrack()` 中的现有逻辑）
 ## 风险与限制
 - **性能风险**: ESP32-S3 同时运行 WiFi + WebSocket + Opus + AI 对话 + LVGL + 摄像头 + 人脸检测，CPU 和内存压力大
 - **音频干扰风险**: 人脸检测占用的 Core 0 可能与音频共享，导致对话卡顿
 - **跨项目协调**: ESP32 和 RP2040 属于不同代码库，需协调 UART 协议
 - **模型精度**: esp-dl 的人脸检测模型精度低于 Grove Vision AI V2，追踪流畅度可能下降
--- a/docs/phase-01-face-tracking/PLAN.md
+++ b/docs/phase-01-face-tracking/PLAN.md
--- a/docs/phase-01-face-tracking/PLAN_CHECK.md
+++ b/docs/phase-01-face-tracking/PLAN_CHECK.md
@ -0,0 +1,189 @@
 # Phase 1 PLAN.md 第二轮审查报告
 **审查日期:** 2026-04-17
 **审查对象:** `/Users/rdzleo/Desktop/CogletESP-camera-version/docs/phase-01-face-tracking/PLAN.md` v1.1
 **审查方法:** 对照第一轮 PLAN_CHECK.md 每条问题逐一核验 + 实际代码交叉
 **审查人:** GSD Plan Checker（第二轮）
 ---
 ## 1. 审查结论
 **`PASS_WITH_NOTES`**
 第一轮提出的 3 个 BLOCKER + 3 个 HIGH 全部得到正确修复，修复质量整体良好。Revision History 完整、决策点 D-07 在"用户已决策"表中明确登记、依赖图笔误已订正、新增风险 R13/R14/R15 与代码逻辑一致。**可以进入执行阶段**。
 仅有 2 处轻微注意点（不阻塞，仅作提醒），见第 3 节。
 ---
 ## 2. 原问题修复情况表
 | 编号 | 严重级 | 原问题 | 是否修复 | 修复质量 | 备注 |
 |------|--------|--------|----------|----------|------|
 | BLOCKER #1 | 🔴 | T10 facetrack 缺失 idle 判断 | ✅ 已修复 | **好** | T10 修订（L667-734）+ D-07 决策（L48）+ R15 风险登记（L1078） |
 | BLOCKER #2 | 🔴 | grove_active 重复更新 | ✅ 已修复 | **好** | T10 删除重复更新代码 + T09（L659）注释明确"只在此处更新" |
 | BLOCKER #3 | 🔴 | T01 用 Capture() 过重 | ✅ 已修复 | **好** | T01 重写为最小 V4L2 DQBUF/QBUF probe，预算 < 200ms |
 | HIGH #1 | 🟠 | CMakeLists 非 S3 目标 | ✅ 已修复 | **好** | 三重保护：Kconfig depends + CMake REMOVE_ITEM + 源文件 #if 守卫 |
 | HIGH #2 | 🟠 | Capture mutex 饥饿 | ✅ 已修复 | **好** | T04 双超时策略（detection 10ms timeout 跳帧，capture portMAX_DELAY） |
 | HIGH #3 | 🟠 | staticflag 硬编码 False 漂移 | ✅ 已修复 | **好** | T08 新增 `last_face_raw` + `FACE_STATIC_THRESHOLD=3` 去重逻辑 |
 | 笔误 | — | 依赖图 T05→T07 | ✅ 已修复 | **好** | 改为 T06→T07，并在 v1.1 标头明确说明 |
 ---
 ## 3. 修复细节核验
 ### BLOCKER #1（T10 idle 判断）
 - **D-07 决策已登记**（L48）：明确"idle 状态下 RP2040 不驱动眼球舵机追踪。ESP32 侧行为不变（按 D-03 始终发送坐标）；RP2040 侧收到 face:x,y 时，若 animation.current_state == 'idle'，仅更新 grove_active/grove_last_seen/last_face_offset 状态，不调用 set_target()"
 - **代码位置正确**（L699-702）：idle 判断放在数据消费 + grove_active 超时之后、舵机驱动之前——这是**严格正确的位置**：
  - 先消费 `last_face_offset`（避免数据堆积）✅
  - 再做 3s 超时回退（即便 idle 也要正确清 `grove_active`）✅
  - 最后 `if idle: return`，跳过 servo 驱动 ✅
 - **对齐原代码语义**：原 `facetrack()` L53 是 `if animation.current_state != "idle":`，T10 用 `if idle: return` 实现等价转换，且把 `grove_active` 超时判定上移到 idle return 之前——这反而比原代码更稳健（原代码 idle 时根本不更新 grove_active）。
 - **DoD 测试用例完整**（L717-730）：手动测试 1（非 idle 追踪）、测试 2（idle 不追踪）、测试 3（3s 超时）、测试 4（staticflag 联动）四项覆盖。
 ### BLOCKER #2（grove_active 重复更新）
 - **T09 单一更新点**（L649-651）：`animation.grove_active = True; animation.grove_last_seen = time.ticks_ms()` 只在 incoming_commands 循环里设置。
 - **T09 显式注释**（L659）："grove_active / grove_last_seen 的更新**只在此处**做，T10 的 facetrack() 不再重复更新"——意图清晰。
 - **T10 完全删除原 L456-461 重复代码**：T10 修订后只保留"3 秒无数据回退"兜底（L694-697），不再 set True。
 - **职责划分清晰**：
  - T09：incoming_commands 收到 face: → set True + 更新 last_seen
  - T10：facetrack 检查超时 → set False
  - 两处不冲突，未来 `grove_last_seen` 真正反映"最后一次收到 ESP32 数据的时间"。
 ### BLOCKER #3（T01 最小 probe）
 - **改为 V4L2 直接 ioctl**（L75-99）：只调一次 `VIDIOC_DQBUF` + `VIDIOC_QBUF`，不触发 JPEG 编码、不做 PSRAM 大分配、不触发 encoder_thread。
 - **执行时间预算合理**：DoD（L116）要求 `elapsed < 200ms`——这是合理的（V4L2 DQBUF 在 10 FPS 下理论 < 100ms 就能拿到下一帧；DVP 唤醒延迟也在此预算内）。
 - **probe 调用位置正确**（L101-112）：放在 `Application::Start()` 末尾、`protocol_->Start()` 之后——此时 `Esp32Camera` 已构造完成，`streaming_on_=true`，video_fd_ 已 open。
 - **保留诊断 API**（L114）：T04 完成后只删 probe 调用、保留 `ProbeFrameCapture` API 作为诊断工具——比原方案"完全删除"更稳。
 ### HIGH #1（CMakeLists 非 S3）
 - **三重保护明确写入** T05（L370-387 + L388-394 兼容性表）：
  1. **Kconfig 层**：`depends on IDF_TARGET_ESP32S3 || IDF_TARGET_ESP32P4`（T02 L139）
  2. **CMake 层**：`if(NOT CONFIG_IDF_TARGET_ESP32S3) list(REMOVE_ITEM SOURCES "face_tracker.cc") endif()`（T05 L380-382）
  3. **源文件层**：`#if defined(CONFIG_XIAOZHI_ENABLE_FACE_TRACKING) && defined(CONFIG_IDF_TARGET_ESP32S3)` 包裹所有 esp-dl include（T05 L319）
 - **兼容性表**（L388-394）覆盖 ESP32-S3 / P4 / 原版 / C3 / C6 五种目标的预期行为。
 - **DoD 加入交叉验证**（L397）："ESP32（原版）编译通过（验证非 S3 目标不会因 human_face_detect.hpp 缺失而失败）"。
 - **轻微注意**：T05 L392 写"ESP32-P4：face_tracker.cc 编译为空壳"——但 T02 Kconfig L139 明确 `depends on IDF_TARGET_ESP32S3 || IDF_TARGET_ESP32P4`，且 T05 L380 CMake 条件是 `if(NOT CONFIG_IDF_TARGET_ESP32S3)` —— 这意味着 P4 目标会被 CMake 排除掉编译（与 Kconfig 允许冲突）。**详见第 4 节 NOTE-1**。
 ### HIGH #2（Capture mutex 饥饿）
 - **T04 双超时策略明确**（L209，修订说明）："face_track 拿不到锁就跳过这一帧（人脸检测允许丢帧），拍照则可完整持有 mutex"。
 - **代码层面正确**：
  - `CaptureForDetection`（L240）：`xSemaphoreTake(capture_mutex_, pdMS_TO_TICKS(10))`，拿不到立即返回 false
  - `Capture`（L275）：`xSemaphoreTake(capture_mutex_, portMAX_DELAY)` 等任意时长
 - **使用 FreeRTOS Semaphore 而非 std::mutex**：注释（L231）解释了原因（std::mutex 的 `try_lock_for` 在 ESP32 toolchain 上不可移植）——**正确的工程权衡**。
 - **新增 R13 风险登记**（L1076）：与代码逻辑完全一致。
 - **T12 步骤 7 显式验证**（L796-799）：listening 状态下触发 MCP take_photo，观察 face_tracker 跳帧而非卡死。
 - **轻微注意**：`CaptureForDetection` 与 `ReleaseDetectionFrame` 的 mutex 是**跨调用持有**——`CaptureForDetection` 拿锁后不解锁，由后续的 `ReleaseDetectionFrame` 解锁。这是正确的（保护 mmap_buffers_[buf.index] 的内容直到 caller 用完），但 face_tracker_task 必须保证两者**严格成对**调用。**详见第 4 节 NOTE-2**。
 ### HIGH #3（staticflag 漂移）
 - **T08 新增 static 去重逻辑**（L592-606）：
  - 与 `last_face_raw` 比较 dx, dy
  - 阈值 ≤ `FACE_STATIC_THRESHOLD=3` → 设 `staticflag = True`
  - 否则更新 `last_face_raw` + 设 `staticflag = False`
  - 首次收到坐标视为非静态（合理）
 - **阈值 3 像素的合理性**：
  - 在 224×224 归一化坐标下约 2.7%
  - 对照 `coms.py` L60 `deadzone = 20`（更宽容），3 像素只用于**消除 bbox 抖动**，不会影响 deadzone 判定
  - 与原 Grove 的 `if boxes_part != self.last_boxes` 字符串完全相等比较（coms.py L80）相比，3 像素阈值更宽容（容忍 bbox 抖动），是**合理升级**
 - **T10 不再硬编码 staticflag = False**（L686 注释明确）："注意：staticflag 已在 T08 parse_face 中更新，此处不再设置"
 - **DoD 完整覆盖**（L618-628）：基本解析 4 条 + static 去重 4 条断言。
 - **R14 风险登记 + D-D 决策点**（L1077, L989-992）：留出实测调校空间。
 ### 依赖图笔误
 - **L900-902 已改为 T06→T07**：图中 T07 的箭头指向 T06，配上注释 "← T06 依赖 T07（v1.1 修正）"
 - **v1.1 修订说明明确**（L20, L873-875）："原版图中 T05→T07 是笔误。实际 T05 只是骨架任务（打印 hello），不调用 uart_send_face；是 T06 才调用 uart_send_face 完成坐标推送"
 - **执行顺序表同步更新**（L946）："T06 前置：T02、T03、T04、T05、T07 全部完成后才能开工（v1.1 修正）"
 ---
 ## 4. 新发现的问题
 ### 🔵 NOTE（提示性，不阻塞执行）
 #### NOTE-1: ESP32-P4 在 Kconfig 允许但 CMake 排除——存在矛盾
 - **位置:** T02 L139（Kconfig `depends on IDF_TARGET_ESP32S3 || IDF_TARGET_ESP32P4`） vs T05 L380（CMake `if(NOT CONFIG_IDF_TARGET_ESP32S3)`）
 - **问题:** Kconfig 允许 P4 看到选项并打开，但 CMake 在 P4 上会移除 `face_tracker.cc`，导致 face_tracker 函数变成空壳（`#else` 分支的 3 个空函数）。如果用户在 P4 上启用该选项，编译能过但功能不工作——日志里也不会有任何报错。
 - **建议:** 二选一：
  - **方案 A**：CMake 改为 `if(NOT CONFIG_IDF_TARGET_ESP32S3 AND NOT CONFIG_IDF_TARGET_ESP32P4)` 一并支持 P4
  - **方案 B**：Kconfig 改为 `depends on IDF_TARGET_ESP32S3` 只支持 S3，把 P4 从声明列表中去掉
 - **不阻塞**：本项目硬件是 S3-N16R8，P4 路径根本不会被走到。但作为面向其他用户的 Kconfig 开关，最好和实际 CMake 行为对齐。
 #### NOTE-2: `CaptureForDetection` 与 `ReleaseDetectionFrame` 跨调用持锁——face_tracker 任务必须严格成对
 - **位置:** T04 L256-258（注释"不解锁！由 ReleaseDetectionFrame 配对解锁"），T06 L443/458 调用配对
 - **观察:** T06 的实现已经正确做到了：在 `CaptureForDetection` 返回 true 后立即用 `auto& results = detector->run(img)`，然后立刻调用 `ReleaseDetectionFrame(f)`。中间没有 `continue`/`return`/异常路径会跳过 `ReleaseDetectionFrame`。
 - **潜在隐患:** 如果未来有人在 T06 的 if-else 分支中插入 early return（例如某种检测失败的快速路径），可能漏掉 `ReleaseDetectionFrame` → 整个 capture mutex 永久持有 → MCP 拍照永久卡死。
 - **建议:** T06 的 ReleaseDetectionFrame 调用建议用 RAII 风格包装：
  ```cpp
  // 可选改进：建一个 helper struct
  struct DetectionFrameGuard {
      Esp32Camera* cam;
      Esp32Camera::FrameRef* f;
      ~DetectionFrameGuard() { if (cam && f) cam->ReleaseDetectionFrame(*f); }
  };
  ```
  或者至少在 T06 的代码注释中加 **"绝对不要在 CaptureForDetection true 之后到 ReleaseDetectionFrame 之间插入 early return"** 的警示。
 - **不阻塞**：当前代码路径正确，仅作未来维护提醒。
 ---
 ## 5. 已修复但值得点赞的设计
 1. **T10 idle return 之前先做 3 秒超时回退**（L694-702）——比原 `facetrack()` 在 idle 下完全不更新 grove_active 的行为**更稳健**。这意味着用户在 idle 下离开摄像头 3 秒后再唤醒到 listening，`grove_active=False` 已被正确清掉，不会出现"基于过期数据驱动眼球"的视觉异常。
 2. **T01 保留 `ProbeFrameCapture` 作为诊断 API**（L114）——比"完全删除"更工程化，未来 issue 排查可独立触发。
 3. **T05 三重保护**（Kconfig + CMake + 源文件 #if）——任一机制失效另两层兜底，鲁棒性极高。
 4. **T08 阈值 3 像素的工程经验值**——对应 coms.py L60 `deadzone=20`，比例合理；而且在 DoD 里给了完整断言（包括边界 = 阈值的 case）。
 5. **R13/R14/R15 与 D-D/D-07 双向链接**——风险登记和决策点形成闭环。
 ---
 ## 6. Revision History 完整性核验
 - ✅ Revision History 表（L13-16）清晰列出 v1.0 → v1.1 的变更摘要
 - ✅ "v1.1 涉及修改的任务"明确列举（L18）：T01、T04、T06、T08、T10
  - 注：T05/T07/T09 也有少量修订（CMake/注释），但属于配套调整，未单独标记
  - **轻微遗漏**：T05 实际有修订（CMake 条件编译策略，HIGH #1 修复），但 v1.1 摘要里没列入。建议下次修订时补全。
 - ✅ "v1.1 新增决策"（L19）明确列出 D-07
 - ✅ "v1.1 依赖图修正"（L20）明确指出 T06→T07
 - ✅ 每个修订任务都有 `[修订于 2026-04-17]` 标记：T01（L63）、T04（L206）、T05（L287）、T08（L549）、T10（L667）—— **T06 没有**[修订于 2026-04-17] 标记，但实际 T06 内容相对 v1.0 有微调（FPS 计算加保底防除零）。建议补上。
 - ✅ 任务编号保持 T01-T15 不变
 - ✅ 任务清单快速参考（L1148-1166）的 v1.1 修订列已正确标注
 ---
 ## 7. 推荐下一步
 ### ✅ 批准进入执行阶段
 第一轮的 3 BLOCKER + 3 HIGH 已全部修复且修复质量良好；新增风险 R13/R14/R15 与代码逻辑一致；Revision History 基本完整；依赖图笔误已订正。
 **可以执行 `/gsd-execute-phase 01-face-tracking`**。
 ### 执行过程中建议留意
 1. **NOTE-1（P4 行为不一致）**：执行 T02/T05 时如果方便，顺手统一 Kconfig 和 CMake 的目标列表（建议改 Kconfig 为 `depends on IDF_TARGET_ESP32S3` 只支持 S3，因为本项目硬件就是 S3）。
 2. **NOTE-2（CaptureForDetection RAII）**：执行 T04/T06 时考虑加 RAII guard 或至少加警示注释，避免未来维护引入 mutex 永久持有的 bug。
 3. **R14（FACE_STATIC_THRESHOLD 调校）**：T12 阶段必须实测验证 3 像素阈值是否合适，准备好按 D-D 调整。
 4. **D-07 用户体验观察**：T12 步骤 3 显式测试 idle 状态——这是本次修订的核心，务必拍视频/截图记录眼球闭眼且不动的状态作为 ACCEPTANCE.md 证据。
 ### 不阻塞但可优化（执行后再议）
 - 给 T05 / T06 补 [修订于 2026-04-17] 标记（Revision History 完整性）
 - T05 兼容性表对 P4 行为表述对齐 NOTE-1 的修订
 ---
 ## 8. 审查总结
 - **正面：** 第一轮提出的所有问题都得到准确理解和修复；修复方案不仅"满足要求"还体现了工程权衡（如 FreeRTOS Semaphore vs std::mutex、RAII 担心、保留诊断 API）；新增决策 D-07 的设计深入到了"idle 时眼睑闭合所以追踪无意义"的产品语义层面，不是机械修复。
 - **负面：** Revision History 标记不完全（T05/T06 缺标记），少量 Kconfig/CMake 目标列表不一致——但都属于轻微注意，不影响执行。
 - **结论：** 修订质量超出预期，**PASS_WITH_NOTES**，进入执行阶段。
--- a/docs/phase-01-face-tracking/PROGRESS.md
+++ b/docs/phase-01-face-tracking/PROGRESS.md
@ -0,0 +1,109 @@
 # Phase 01 执行进度追踪
 > 由于本仓库非 git 仓库，用本文件替代 commit 作为原子进度追踪。
 > 每完成一个任务追加一行；遇到偏差记录 `[!]` 条目。
 ## 任务状态表
 - [~] T01 摄像头硬件 V4L2 probe —— 代码完成，硬件验证待用户
 - [x] T02 Kconfig 开关 + FPS choice
 - [x] T03 esp-dl + human_face_detect 依赖
 - [x] T04 Esp32Camera CaptureForDetection + 双超时 mutex
 - [x] T05 face_tracker.{h,cc} 骨架 + CMake 条件编译
 - [x] T06 集成 HumanFaceDetect 推理 + 坐标归一化（代码部分；实测待 T12）
 - [x] T07 uart_send_face + uart mutex
 - [ ] T08 RP2040 parse_face + static 去重
 - [ ] T09 RP2040 main.py incoming_commands 识别 face:
 - [ ] T10 RP2040 facetrack() 改造（D-07 idle return）
 - [ ] T11 application.cc 接入 face_tracker_start
 - [ ] T12 端到端联调
 - [ ] T13 性能调优
 - [ ] T14 关开关回归测试
 - [ ] T15 最终验收
 ## 执行日志
 - [x] T01 代码部分完成：2026-04-17
  - 新增 `ProbeFrameCapture()` 到 `main/boards/common/esp32_camera.{h,cc}`
  - 在 `main/application.cc` 的 `Start()` 末尾插入 probe 调用（`#ifndef CONFIG_IDF_TARGET_ESP32` 守卫）
  - 硬件验证部分待用户接 USB 后在 T02/T03 通过后烧录验证
 - [x] T02 完成：2026-04-17
  - 在 `main/Kconfig.projbuild` 的 Camera Configuration menu 末尾新增
    `XIAOZHI_ENABLE_FACE_TRACKING` + FPS choice（5/10/15）
  - 采用 PLAN_CHECK NOTE-1 方案 B：`depends on IDF_TARGET_ESP32S3`
    只支持 S3，与 CMake 排除逻辑对齐
 - [!] T03 偏差：2026-04-17 — 依赖版本冲突 阻塞批次 1
  - **第一轮偏差**：PLAN 原定 `esp-dl==3.2.0` + `human_face_detect==0.4.1` 不兼容
    （registry 数据显示 human_face_detect 0.4.1 实际依赖 `esp-dl ~3.3.0`）
  - 自动修正为 `esp-dl ~3.3.0`
  - **第二轮偏差（blocking）**：`esp-dl 3.3.0` 要求 `esp-dsp ==1.7.0`，
    但项目已有 `esp-sr ~2.2.0` 要求 `esp-dsp ==1.6.0`，互斥
  - 此为真正的版本冲突，已停下汇报 orchestrator
 - [x] T03 偏差已解决：2026-04-17 —— 用户决策方案 A：升级 esp-sr
  - 将 `idf_component.yml` 中 `esp-sr` 从 `~2.2.0` 升级为 `~2.3.1`
  - esp-sr 2.3.x 已切换到 esp-dsp 1.7.0，与 esp-dl 3.3.0 兼容
  - `idf.py reconfigure` 通过：esp-dl 3.3.x / esp-dsp 1.7.0 / esp-sr 2.3.1 / human_face_detect 0.4.1 全部就绪
  - 编译遇到 bootloader CMake 缓存不匹配（与 IDF 路径历史变更有关），已清理 `build/bootloader*` 目录后重新编译
 - [x] T04 完成：2026-04-17 - 修改文件: main/boards/common/esp32_camera.{h,cc}
  - `esp32_camera.h`: 新增公开结构体 `FrameRef`（data/len/width/height/format/buf_index）
    + `CaptureForDetection(FrameRef*)` / `ReleaseDetectionFrame(const FrameRef&)` 声明
    + 私有成员 `SemaphoreHandle_t capture_mutex_`
  - `esp32_camera.cc`: 构造函数末尾 `xSemaphoreCreateMutex()`，析构函数 `vSemaphoreDelete`
    实现 `CaptureForDetection`（10ms timeout 拿不到锁即返回 false 跳帧，成功后不解锁）
    实现 `ReleaseDetectionFrame`（VIDIOC_QBUF 归还 + 释放 mutex）
    `Capture()` 头部用栈上 RAII `CaptureLockGuard` 以 portMAX_DELAY 加锁，确保任何 return 路径都解锁
  - `idf.py build` 通过，固件 2.47MB / 剩余 1.47MB (37% free)
 - [x] T05 完成：2026-04-17 - 新增: main/face_tracker.{h,cc}；修改: main/CMakeLists.txt
  - `face_tracker.h`: `extern "C"` 导出 3 个接口：`face_tracker_start/stop/get_fps`
  - `face_tracker.cc`: 三重保护
    1) Kconfig 层面（批次 1 已加 depends on IDF_TARGET_ESP32S3）
    2) 代码层面 `#if defined(CONFIG_XIAOZHI_ENABLE_FACE_TRACKING) && defined(CONFIG_IDF_TARGET_ESP32S3)` 守卫
    3) 构建层面：CMakeLists.txt `if(NOT CONFIG_IDF_TARGET_ESP32S3) list(REMOVE_ITEM SOURCES "face_tracker.cc")`
    骨架任务 pin Core 0 / 优先级 2 / 栈 8KB，每秒打印 `hello from core 0`
  - `idf.py build` 通过，固件 2.47MB / 剩余 1.47MB (face_tracker.cc.obj 已被编译链接)
 - [!] T06 偏差：2026-04-17 - PLAN 中 T06 依赖 T07 的 uart_send_face 符号，但批次 2 未做 T07
  - 采取方案：face_tracker.cc 中用 `__attribute__((weak))` 前向声明 `uart_send_face`
    T07 完成后，uart_component.cc 提供的 strong symbol 自动覆盖弱符号
    调用处加 `if (uart_send_face != nullptr)` 判空（弱符号未定义时为 NULL）
  - 此偏差属于"修复 T06 的前置依赖缺失"，无需架构层面变更，已内联解决
 - [x] T06 完成（代码部分）：2026-04-17 - 修改: main/face_tracker.cc
  - 包含 `human_face_detect.hpp` / `dl_image_define.hpp` / `dl_detect_define.hpp`
  - 构造 `HumanFaceDetect()`（默认 model_type 由 CONFIG_DEFAULT_HUMAN_FACE_DETECT_MODEL 决定）
  - 任务主循环：`vTaskDelayUntil(period)` 按 Kconfig FPS → CaptureForDetection →
    组装 img_t (YUYV) → detector->run(img) → ReleaseDetectionFrame → 坐标归一化
  - 坐标公式严格遵守 RESEARCH Pitfall 7：`cx * 224 / width - 112`（匹配 RP2040 deadzone=20）
  - PLAN 未定义多人脸排序，补充健壮性：遍历 list 挑 score 最高的 result（避免多脸摇摆）
  - 启动时打印 `PSRAM after detector init` 供 R2 OOM 风险追踪
  - 每 10 秒打印 `face stats: hit/miss/fps`
  - `idf.py build` 通过，固件 2.50MB / 剩余 1.46MB (36% free) — 相比 T05 +30KB
    (esp-dl 推理库 + human_face_detect 模型注册表代码被链接)
  - **实测部分待 T12**：需烧录后将人脸对准摄像头验证 score / infer 时长 / FPS
    若 score < 0.5 则进入决策点 D-B（改为 DL_IMAGE_PIX_TYPE_RGB565LE）
 - [x] T07 完成：2026-04-17 - 修改: main/uart_component.{h,cc}
  - `uart_component.h`: 新增 `uart_send_face(int,int)` 声明，用 `extern "C"` 包裹
    以保证 C 链接名（匹配 face_tracker.cc 的 `extern "C" __attribute__((weak))` 前置声明）
    其他函数保持原 C++ 修饰名不变，不影响 main.cc/display.cc 现有调用
  - `uart_component.cc`:
    * 新增 `static SemaphoreHandle_t s_uart_tx_mutex`，在 `uart_init_component()` 末尾创建
    * `uart_send_string()` 整体加 mutex 保护（防止与 uart_send_face 并发撕包）
    * `uart_signal_start/stop` 经由 uart_send_string 间接加锁，无需重复保护
    * 新增 `extern "C" void uart_send_face(int,int)`：snprintf 到 24 字节栈缓冲，
      加锁后 `uart_write_bytes(buf,n)` + `uart_write_bytes("\r\n",2)`，与现有格式一致
  - [!] 小偏差（Rule 2）：PLAN 示例中 header 未用 extern "C"，但 face_tracker.cc 的弱符号
    前置声明是 C 链接，strong 实现必须也是 C 链接才能覆盖 weak；加 extern "C" 包裹解决
  - `idf.py build` 通过，固件 0x280760 = 2.51MB / 剩余 36% (1.46MB)，相比 T06 几乎持平
    (仅 +数百字节，符合 PLAN T07 "< 1KB" 预期)
  - **nm 验证**：`libmain.a` 中 `uart_send_face` 为 T（strong 定义），`face_tracker.cc.obj`
    中为 w（weak 引用）。弱符号覆盖链生效。最终 ELF 暂时没这些符号是因为 T11 未做，
    application 未调用 face_tracker_start，触发链接器 DCE 把整个 face_tracker 子图剔除。
    T11 接入后会自动拉入 uart_send_face 的 strong 实现。
  - 未添加 test hook（PLAN DoD 中提到的 `uart_send_face(42,-30)` 临时调用），
    留给 T12 端到端联调时用真实 face_tracker 数据验证
--- a/docs/phase-01-face-tracking/RESEARCH.md
+++ b/docs/phase-01-face-tracking/RESEARCH.md
@ -0,0 +1,713 @@
 # Phase 1: 单摄像头人脸追踪 — 技术调研
 **调研日期:** 2026-04-17
 **研究对象:** ESP32-S3-N16R8 上的摄像头 + 人脸检测 + UART 坐标协议
 **总体置信度:** HIGH（关键组件均有官方验证），少数性能/内存数字为 MEDIUM（社区数据）
 **ESP-IDF 版本:** 5.4.2（已在 dependencies.lock 中锁定）
 ---
 ## 摘要
 本 Phase 的核心技术决策是在不破坏现有 `xiaozhi-esp32` 语音对话架构的前提下，新增一个人脸检测任务：
 - **推理库选型**：esp-dl v3.2.0 + human_face_detect v0.4.1（官方组件，2024-10 发布，而 esp-who 已 refactor 为 esp-dl 的外壳，不再推荐直接使用）。
 - **模型选型**：两阶段 MSR_S8_V1 + MNP_S8_V1（小模型 + 高精度级联，ESP32-S3 总推理耗时 ~38ms，FPS 上限约 26）。
 - **图像格式**：`Esp32Camera` 已选 YUYV 为 OV3660 的首选格式，esp-dl 原生支持 `DL_IMAGE_PIX_TYPE_YUYV` 以及 `RGB565LE`，可直接喂给模型（内部自动 resize + 归一化），**零拷贝**。
 - **UART 协议**：在现有 `uart_send_string()` 的基础上扩展，新增 `face:x,y\n` 协议（与现有状态字符串字典集隔离，零侵入）。
 - **任务调度**：人脸检测任务 pinnedToCore=0（与 main_event_loop 同 Core），priority=2（低于音频 I/O，高于空闲），栈 8KB。音频任务继续在 Core 0 priority=8 抢占。
 - **分区方案**：占用现有 8MB assets SPIFFS 的 ~200KB 用于 `human_face_det` 子分区 OR 将模型编入 flash rodata（二选一，推荐后者简化部署）。
 - **Kconfig 开关**：新增 `CONFIG_XIAOZHI_ENABLE_FACE_TRACKING`，默认 `y`，方便未来回退。
 **主要建议：** 直接把模型以 flash rodata 方式嵌入（no partition change），采集 QVGA（320×240）YUYV 帧，交给 `HumanFaceDetect::run()`，取首个结果的 bbox 中心坐标映射到 `[-112, +112]` 范围（匹配 RP2040 的 `pixel_centre=112`），通过 UART1 发送 `face:x,y\n`，≥ 5 FPS（实测上限 15-20 FPS，主动限频到 10 FPS 以降低 CPU 压力）。
 ---
 ## Standard Stack
 ### Core（官方组件，HIGH 置信度）
 | 库 | 版本 | 用途 | 选择理由 |
 |----|------|------|----------|
 | `espressif/esp-dl` | **3.2.0**（2024-10-23 发布） | 神经网络推理引擎 | 官方 AI 库；ESP-IDF 5.3+ 支持；Conv2D 自动双核调度 |
 | `espressif/human_face_detect` | **0.4.1** | MSR+MNP 人脸检测封装 | 官方标准实现；模型、预处理、后处理一体封装 |
 | `espressif/esp_video` | **1.3.1**（已有） | OV3660 V4L2 驱动 | 现有组件，无需改动 |
 **安装命令：**
 ```bash
 # 在 main/idf_component.yml 添加：
 # espressif/esp-dl: ^3.2.0
 # espressif/human_face_detect: ^0.4.1
 idf.py reconfigure
 ```
 **版本验证：** 2026-04-17 通过 `components.espressif.com` 页面确认 v3.2.0 是 esp-dl 最新稳定版，v0.4.1 是 human_face_detect 最新版。
 ### Supporting（已存在于项目，无需新增）
 | 库 | 版本 | 用途 |
 |----|------|------|
 | `espressif/dl_fft` | ≥0.3.1 | esp-dl 间接依赖（自动拉取） |
 | `espressif/esp-dsp` | ==1.7.0 | esp-dl 间接依赖（自动拉取） |
 | `espressif/esp_new_jpeg` | ^0.6.1 | 已有，esp-dl 间接依赖 |
 | ESP-IDF `driver/uart.h` | 5.4.2 内置 | UART1 发送坐标到 RP2040 |
 ### Alternatives Considered
 | 替代方案 | 是否可行 | 为什么不选 |
 |----------|----------|----------|
 | `espressif/esp-who` | 可行但过时 | README 声明已 refactor 为 esp-dl 的 example wrapper；其 legacy release/v1.1.0 分支不再维护 ESP32-S3 |
 | TensorFlow Lite Micro + MTCNN (mauriciobarroso/mtcnn_esp32s3) | 可行 | 缺少官方支持；推理速度慢（报告 < 5 FPS） |
 | 手写 SSD-MobileNet | 不推荐 | 训练/量化工具链复杂；esp-dl 已有现成模型 |
 | Edge Impulse FOMO | 可行但付费 | 商用授权；与小智主线集成阻力大 |
 ---
 ## Architecture Patterns
 ### 推荐文件结构
 ```
 main/
 ├── uart_component.{h,cc}              # 扩展新增 uart_send_face()
 ├── face_tracker.{h,cc}                # 【新增】人脸检测任务封装
 ├── boards/
 │   └── common/
 │       └── esp32_camera.{h,cc}        # 扩展新增 GetFrame() 接口
 ├── application.cc                     # 启动 face_tracker，状态机集成
 └── Kconfig.projbuild                  # 新增 CONFIG_XIAOZHI_ENABLE_FACE_TRACKING
 ```
 ### Pattern 1: 直接复用现有帧缓冲（不新增 FrameBuffer）
 **要点：** `Esp32Camera::Capture()` 已经将帧拷贝到 `frame_.data`（PSRAM），但 `frame_` 是 `private`。Phase 需要在 `Esp32Camera` 里新增一个公开的"取当前帧引用"方法，而不是为检测任务复制整帧。
 ```cpp
 // esp32_camera.h 新增（不影响现有 Capture 流）
 struct FrameRef {
    const uint8_t* data;
    size_t len;
    uint16_t width, height;
    v4l2_pix_fmt_t format;
 };
 virtual bool CaptureForDetection(FrameRef* out);  // 不做 JPEG 编码、不做预览显示
 // 实现：只做 VIDIOC_DQBUF → memcpy 到 detection_frame_ → VIDIOC_QBUF
 // 与 Capture() 共享一个 video_fd_，用 mutex 互斥
 ```
 **源码参考：** 现有 `Esp32Camera::Capture()` L386-839 是完整的采集+旋转+显示流程，检测任务只需采集的前半段。
 ### Pattern 2: 独立 FreeRTOS 任务 + 主动限频
 ```cpp
 // face_tracker.cc
 static void FaceTrackerTask(void* arg) {
    const TickType_t period = pdMS_TO_TICKS(100);  // 10 FPS
    TickType_t last_wake = xTaskGetTickCount();
    HumanFaceDetect* detector = new HumanFaceDetect();  // ~40ms 初始化
    FrameRef frame;
    while (!stop_requested_) {
        vTaskDelayUntil(&last_wake, period);
        auto cam = (Esp32Camera*)Board::GetInstance().GetCamera();
        if (!cam || !cam->CaptureForDetection(&frame)) continue;
        dl::image::img_t img = {
            .data = (void*)frame.data,
            .width = frame.width,
            .height = frame.height,
            .pix_type = dl::image::DL_IMAGE_PIX_TYPE_YUYV,
        };
        auto& results = detector->run(img);
        if (results.empty()) {
            // 3 秒无脸后不再发送，RP2040 端会自动 grove_active=False
            continue;
        }
        const auto& r = results.front();
        int cx = (r.box[0] + r.box[2]) / 2;
        int cy = (r.box[1] + r.box[3]) / 2;
        // 映射到 [-112, +112] 区间（匹配 RP2040 pixel_centre=112）
        int x_offset = cx * 224 / frame.width - 112;
        int y_offset = cy * 224 / frame.height - 112;
        char buf[32];
        snprintf(buf, sizeof(buf), "face:%d,%d", x_offset, y_offset);
        uart_send_string(buf);
    }
    delete detector;
    vTaskDelete(NULL);
 }
 ```
 ### Pattern 3: UART 协议前缀隔离
 **要点：** RP2040 的 `main.py` L125-131 处理 `incoming_commands`，先查 `action_map`（`act_*` 开头），再查 `state_map`（`idle/speaking/listening/...`）。**任何以 `face:` 开头的字符串既不在 `action_map`，也不在 `state_map`**，所以现有代码会直接忽略——零侵入。Phase 只需在 RP2040 端 `coms.py` 或 `main.py` 新增对 `face:` 前缀的识别并注入 `facetrack()` 数据流。
 ```python
 # RP2040 端 coms.py 新增方法（不修改 esp_read 接口）
 def parse_face(self, line):
    """line 形如 'face:50,-30'"""
    if not line.startswith('face:'):
        return None
    try:
        parts = line[5:].split(',')
        x = int(parts[0])
        y = int(parts[1])
        return (x, y)
    except (ValueError, IndexError):
        return None
 # main.py 在 for data in incoming_commands 循环里：
 offset = external.parse_face(data)
 if offset:
    animation.grove_active = True
    animation.grove_last_seen = time.ticks_ms()
    # 直接塞入 facetrack 的 eyl/eyr/pit 更新逻辑（复用已有代码）
    ...
 elif data in animation.action_map: ...
 elif data in animation.state_map: ...
 ```
 ### Anti-Patterns to Avoid
 - **不要在 LVGL 任务或 audio 任务里做推理**：38ms 的 Conv2D 会导致 Opus 解码卡顿、GIF 掉帧。必须独立任务。
 - **不要用 `xTaskCreatePinnedToCore(..., 1)`（Core 1）**：Core 1 通常被 WiFi/BT/Audio I/O 占用，新增 CPU-bound 任务会恶化音频延迟。**Core 0** 与主循环/LVGL 共享更合适（ISR 少，可被音频任务抢占）。
 - **不要改 `Esp32Camera::Capture()` 签名**：MCP camera tool（`mcp_server.cc:100`）仍在用，保持稳定。新增独立方法。
 - **不要用默认 10 FPS 以上采样率**：帧率越高，推理越频繁，和音频争抢 Core 0 越厉害。实测可先从 5 FPS 起步，视音频表现再调。
 - **不要在 UART 发送坐标时加 `\r\n` 前缀**：`uart_send_string()` 自动加 `\r\n`，RP2040 按 `\n` 分割。
 ---
 ## Don't Hand-Roll
 | 问题 | 不要自己做的 | 改用 | 原因 |
 |------|-------------|------|------|
 | 人脸检测推理 | 手写 MTCNN/MobileNet 前向传播 | `HumanFaceDetect` | 量化、SIMD 优化、ESP32-S3 vector 指令用法复杂 |
 | YUYV→RGB888 转换 | 手写 CbCr 重采样 | `dl::image` 内置 `yuv2rgb565` / `yuv2rgb888` | 已有 C++ SIMD 优化，比软件循环快 5x |
 | 图像 resize | 手写双线性插值 | `dl::image::ImagePreprocessor`（`HumanFaceDetect::run()` 内部自动调用） | 已做 resize + 归一化 + 量化 |
 | 帧缓冲分配 | 自己 `heap_caps_malloc(MALLOC_CAP_SPIRAM)` | 复用 `Esp32Camera::frame_`（已在 PSRAM） | 避免 PSRAM 双份占用（每帧 QVGA RGB565 = 150KB） |
 | UART 缓冲/发送 | 自己封装一层 TX queue | 直接调 `uart_send_string()` | 已有简洁 API，协议扩展走前缀隔离 |
 | 模型格式解析 | 自己读 .espdl | `HumanFaceDetect` 构造函数自动加载 | FlatBuffers + zero-copy 不可见，绝对不能动 |
 **核心洞察：** esp-dl 的设计哲学是"提供 Model + ImagePreprocessor + Detect 三件套"，开发者只管构造 `img_t` 和消费 `result_t`。Phase 代码应保持极简（< 200 行）。
 ---
 ## Runtime State Inventory
 | 类别 | 发现的项目 | 所需动作 |
 |------|-----------|---------|
 | **存储数据** | 无 — 不涉及 NVS、SPIFFS 已有数据结构；也不需要持久化坐标 | 无 |
 | **活跃服务配置** | 无 — 不涉及 n8n/Datadog/Cloudflare 等外部服务 | 无 |
 | **OS 级注册状态** | 无 — ESP32-S3 无 systemd/Task Scheduler；FreeRTOS 任务完全 runtime 创建 | 无 |
 | **Secrets/环境变量** | 无 — 不需要新 API key | 无 |
 | **构建产物/已装包** | `managed_components/` 新增 `espressif__esp-dl`（~10MB 源码）+ `espressif__human_face_detect` | `idf.py reconfigure` 自动拉取，首次构建耗时 +2-3 分钟 |
 | **分区表 / Flash** | **若选方案 A（rodata）无改动；方案 B（partition）需改 `partitions/v2/16m.csv` 新增 200KB 分区** | 若选 B：从 assets 的 8MB 里切 200KB，或在 ota_1 和 assets 之间插入（需整体调整偏移） |
 **说明：** `managed_components` 目录是 ESP-IDF 构建系统自动管理的，Clean build 会重新拉取。加入 `dependencies.lock`（git 跟踪）即可复现。
 ---
 ## Common Pitfalls
 ### Pitfall 1: OV3660 在 xiaozhi 项目中的已知崩溃
 **现象：** GitHub issue [#1588](https://github.com/78/xiaozhi-esp32/issues/1588) 报告 `compact-wifi-s3cam + OV3660` 调用 MCP camera tool 时冻结，OV2640 正常。
 **根因：** OV3660 的 DMA/FIFO 配置与 OV2640 不同，初始化参数需要分别处理。本项目已经完成 3 根飞线（GPIO 35→14, 36→41, 37→42），应在同一硬件上 pre-test `Capture()` 是否正常工作（独立验证）。
 **缓解：** Phase 开工前先在 main.cc 里插入一段临时代码，调用 `Board::GetInstance().GetCamera()->Capture()` 一次并观察是否成功；若失败，先修驱动再做检测。
 ### Pitfall 2: 采集与检测共用 video_fd_ 的竞态
 **现象：** MCP `take_photo` 工具和 face_tracker 同时调用 `ioctl(video_fd_, VIDIOC_DQBUF, ...)` 会争抢帧缓冲（req.count=1 for DVP）。
 **根因：** DVP 只申请 1 个 V4L2 缓冲区，同时有两个消费者会导致 `ENOBUFS` 或帧乱序。
 **缓解：** 在 `Esp32Camera` 里加一个 `std::mutex capture_mutex_`，`Capture()` 和 `CaptureForDetection()` 都在进入时加锁；face_tracker 在 `take_photo` 进行时跳过一帧（检测 mutex trylock 失败则 continue）。
 ### Pitfall 3: esp-dl 推理导致音频任务延迟
 **现象：** 38ms 的 Conv2D 会阻塞 Core 0，Opus 解码每 20ms 一次的缓冲送入会延迟，出现"吱吱"卡顿。
 **根因：** esp-dl 的 Conv2D 支持双核调度，但 task 本身 pin 在 Core 0 时，只能借一部分时间片到 Core 1。
 **缓解方案：**
 1. face_tracker 任务优先级 = 2（低于 audio_output=4、audio_input=8、main_event_loop=3）
 2. 每次推理后主动 `vTaskDelay(0)` yield 一次
 3. 使用 `param_copy=false`（模型权重留 flash，不占 PSRAM，但推理变慢 20-30%）仅作为降级选项
 **警示信号：** 日志看到 `audio_output task: queue full` 或 Opus 解码间隔超过 25ms。
 ### Pitfall 4: PSRAM 分配失败
 **现象：** 启动时 `HumanFaceDetect` 构造函数返回 NULL 或 abort，因为 8MB PSRAM 已经被 LVGL 帧缓冲、JPEG 编码器、frame_ 占满。
 **根因：** esp-dl 默认用 `MALLOC_CAP_SPIRAM` 分配模型权重（~200KB）和中间 tensor buffer（~300KB），总共约 500KB PSRAM。
 **缓解：**
 - 构造时检查：`detector = new(std::nothrow) HumanFaceDetect(); if (!detector) { ESP_LOGE(...); return; }`
 - PSRAM 预算在当前项目中：LVGL ~150KB + 摄像头帧（QVGA YUYV=150KB） + Opus buffer ~50KB + 余量 ~7.5MB，**足够**。
 - 触发 OOM 时，降级为 `ESPDET_PICO_224_224_FACE`（单阶段模型，内存更少但 122ms 延迟，FPS 降至 8）。
 ### Pitfall 5: RP2040 端 UART1 已有消费者
 **现象：** 新增 `face:x,y` 协议后 RP2040 端解析错乱。
 **根因：** RP2040 `main.py:124` 的 `external.esp_read()` 已经消费 UART1，返回 `commands` 列表。任何新协议必须进入同一分发链。
 **缓解：** 见上文 Pattern 3，将 `face:` 前缀的解析插入 `for data in incoming_commands` 循环的最前面。
 ### Pitfall 6: UART1 波特率不足导致丢包
 **现象：** 10 FPS 持续发 `face:50,-30\n`（约 14 bytes/帧）理论带宽 = 140 bytes/s，115200 bps 绰绰有余（~11 kB/s）。但如果同时夹杂 `speaking`、`listening` 等状态字符串高频切换，可能在同一 tick 内发送多条。
 **缓解：** 保持 115200，不升高；`uart_write_bytes` 同步阻塞即可。
 ### Pitfall 7: RP2040 的 facetrack() 数据格式不匹配
 **现象：** Grove Vision AI V2 的输出是 `boxes:[224,224,100,100,0]`，即 `[x_center, y_center, w, h, score]`，除以 224 后减 `pixel_centre=112` 得到 offset；但 esp-dl 输出的是 bbox 左上+右下坐标 `[x1, y1, x2, y2]`，单位为图像原始像素（如 320×240）。
 **缓解：** ESP32 端在发送前就完成"归一化到 224×224"的映射：
 ```cpp
 int cx = (r.box[0] + r.box[2]) / 2;
 int cy = (r.box[1] + r.box[3]) / 2;
 int x_offset = cx * 224 / frame.width - 112;  // -112 ~ +112
 int y_offset = cy * 224 / frame.height - 112;
 ```
 这样 RP2040 端无须修改 `pixel_centre=112`、`deadzone=20`、`x_adj_factor=10` 等参数，即可与原 Grove 协议行为一致。
 ---
 ## Code Examples
 ### 官方 human_face_detect example（来源：esp-dl master）
 ```cpp
 // 来源: https://github.com/espressif/esp-dl/blob/master/examples/human_face_detect/main/app_main.cpp
 #include "dl_image_jpeg.hpp"
 #include "human_face_detect.hpp"
 extern "C" void app_main(void) {
    dl::image::jpeg_img_t jpeg_img = {.data = (void *)human_face_jpg_start,
                                      .data_len = (size_t)(human_face_jpg_end - human_face_jpg_start)};
    auto img = dl::image::sw_decode_jpeg(jpeg_img, dl::image::DL_IMAGE_PIX_TYPE_RGB888);
    HumanFaceDetect *detect = new HumanFaceDetect();
    auto &detect_results = detect->run(img);
    for (const auto &res : detect_results) {
        ESP_LOGI(TAG, "[score: %f, x1: %d, y1: %d, x2: %d, y2: %d]",
                 res.score, res.box[0], res.box[1], res.box[2], res.box[3]);
    }
    delete detect;
    heap_caps_free(img.data);
 }
 ```
 ### 本项目适配版（建议模板）
 ```cpp
 // face_tracker.cc（新增）
 #include "face_tracker.h"
 #include "board.h"
 #include "esp32_camera.h"
 #include "uart_component.h"
 #include "human_face_detect.hpp"
 #include "dl_image_define.hpp"
 #include <esp_log.h>
 #include <freertos/FreeRTOS.h>
 #include <freertos/task.h>
 #define TAG "FaceTracker"
 static TaskHandle_t s_task = nullptr;
 static volatile bool s_stop = false;
 static void face_tracker_task(void* arg) {
    vTaskDelay(pdMS_TO_TICKS(500));  // 等待摄像头 ISP 预热
    HumanFaceDetect* detector = new(std::nothrow) HumanFaceDetect();
    if (!detector) {
        ESP_LOGE(TAG, "HumanFaceDetect init failed (OOM?)");
        vTaskDelete(NULL);
        return;
    }
    ESP_LOGI(TAG, "人脸检测任务启动，采样间隔 100ms");
    const TickType_t period = pdMS_TO_TICKS(100);  // 10 FPS
    TickType_t last_wake = xTaskGetTickCount();
    int no_face_counter = 0;
    while (!s_stop) {
        vTaskDelayUntil(&last_wake, period);
        auto cam = dynamic_cast<Esp32Camera*>(Board::GetInstance().GetCamera());
        if (!cam) continue;
        Esp32Camera::FrameRef frame;  // 新 API
        if (!cam->CaptureForDetection(&frame)) continue;
        dl::image::img_t img = {
            .data = (void*)frame.data,
            .width = frame.width,
            .height = frame.height,
            .pix_type = dl::image::DL_IMAGE_PIX_TYPE_YUYV,
        };
        auto& results = detector->run(img);
        if (results.empty()) {
            no_face_counter++;
            continue;
        }
        no_face_counter = 0;
        const auto& r = results.front();
        int cx = (r.box[0] + r.box[2]) / 2;
        int cy = (r.box[1] + r.box[3]) / 2;
        int x_offset = cx * 224 / frame.width - 112;
        int y_offset = cy * 224 / frame.height - 112;
        char buf[32];
        snprintf(buf, sizeof(buf), "face:%d,%d", x_offset, y_offset);
        uart_send_string(buf);
        ESP_LOGD(TAG, "face detected: score=%.2f, offset=(%d,%d)", r.score, x_offset, y_offset);
    }
    delete detector;
    vTaskDelete(NULL);
 }
 void face_tracker_start(void) {
    if (s_task) return;
    s_stop = false;
    xTaskCreatePinnedToCore(face_tracker_task, "face_track",
                            8 * 1024, NULL, 2, &s_task, 0);
 }
 void face_tracker_stop(void) {
    if (!s_task) return;
    s_stop = true;
    // task 自己 vTaskDelete，不需要外部 join
    s_task = nullptr;
 }
 ```
 ### 扩展 `Esp32Camera` 新增 `CaptureForDetection`
 ```cpp
 // esp32_camera.h 新增
 struct FrameRef {
    const uint8_t* data;
    size_t len;
    uint16_t width, height;
    v4l2_pix_fmt_t format;
 };
 virtual bool CaptureForDetection(FrameRef* out);
 // esp32_camera.cc 新增实现（简化版）
 bool Esp32Camera::CaptureForDetection(FrameRef* out) {
    if (!streaming_on_ || video_fd_ < 0) return false;
    std::lock_guard<std::mutex> lock(capture_mutex_);  // 新增成员
    struct v4l2_buffer buf = {};
    buf.type = V4L2_BUF_TYPE_VIDEO_CAPTURE;
    buf.memory = V4L2_MEMORY_MMAP;
    if (ioctl(video_fd_, VIDIOC_DQBUF, &buf) != 0) return false;
    // 不拷贝、不旋转、不显示——直接给 esp-dl 原始 YUYV
    out->data = (const uint8_t*)mmap_buffers_[buf.index].start;
    out->len = buf.bytesused;
    out->width = frame_.width;
    out->height = frame_.height;
    out->format = sensor_format_;
    // 警告：返回给 caller 后必须立即用完，因为 VIDIOC_QBUF 后缓冲会被 ISP 覆写
    // caller 在 run() 完成后立即 ReleaseDetectionFrame() 归还
    return true;
 }
 // （需要配套 ReleaseDetectionFrame 做 VIDIOC_QBUF，此处省略）
 ```
 **注意：** 上述代码是骨架示意，实际实现需要仔细处理 V4L2 缓冲区生命周期——可能更简单的做法是复用 `Capture()` 的 `frame_.data`（已 memcpy 到 PSRAM），face_tracker 直接访问 `frame_`（需把 `frame_` 改为 protected 或新增 getter）。
 ### UART 扩展（`uart_component.h`）
 ```cpp
 // 新增函数，维持现有 uart_send_string 不变
 void uart_send_face(int x_offset, int y_offset);
 // uart_component.cc 实现
 void uart_send_face(int x_offset, int y_offset) {
    char buf[24];
    int n = snprintf(buf, sizeof(buf), "face:%d,%d", x_offset, y_offset);
    if (n > 0 && n < (int)sizeof(buf)) {
        uart_write_bytes(UART_PORT_NUM, buf, n);
        uart_write_bytes(UART_PORT_NUM, "\r\n", 2);
    }
 }
 ```
 ### RP2040 端扩展（`coms.py`）
 ```python
 # 在 Comms 类新增方法
 def parse_face(self, line):
    """解析 ESP32 发来的 'face:X,Y' 坐标协议
    Args:
        line: 解码后的单行字符串（不含 \\r\\n）
    Returns:
        (x_offset, y_offset) tuple，或 None 如果格式不匹配
    """
    if not line.startswith('face:'):
        return None
    try:
        x_str, y_str = line[5:].split(',', 1)
        return (int(x_str), int(y_str))
    except (ValueError, IndexError):
        return None
 ```
 ### RP2040 端扩展（`main.py` L123-131）
 ```python
 # 原代码（L123-131）
 incoming_commands = external.esp_read()
 for data in incoming_commands:
    if data in animation.action_map:
        animation.action_map[data]()
    elif data in animation.state_map:
        animation.new_state_flag = True
        animation.current_state = data
 # 改造后：优先解析 face: 协议
 incoming_commands = external.esp_read()
 for data in incoming_commands:
    face_offset = external.parse_face(data)
    if face_offset is not None:
        # 新增：ESP32 人脸坐标接管 grove_active
        animation.grove_active = True
        animation.grove_last_seen = time.ticks_ms()
        external.last_face_offset = face_offset  # 新增成员
        continue
    if data in animation.action_map:
        animation.action_map[data]()
    elif data in animation.state_map:
        animation.new_state_flag = True
        animation.current_state = data
 ```
 然后改造 `facetrack()`：
 ```python
 def facetrack():
    global yaw_countdown, yaw_target
    # 优先使用 ESP32 来源；无则 fallback 到 Grove
    offset = getattr(external, 'last_face_offset', None)
    if offset is None:
        offset = external.grove_read()
    # 清除 ESP32 offset（单次使用，避免同一坐标重复驱动舵机）
    external.last_face_offset = None
    # ... 后续保持现有逻辑
 ```
 ---
 ## State of the Art
 | 老做法 | 当前做法 | 改变时点 | 影响 |
 |--------|----------|----------|------|
 | esp-who `face_detect()` + `dl_matrix3du_t` | esp-dl `HumanFaceDetect::run(img_t&)` | esp-dl v3.0.0 (2023-12) | API 完全不兼容，老 esp-who 代码无法直接移植 |
 | `esp32-camera` + `esp_camera_fb_get()` | `esp_video` + V4L2 `ioctl(VIDIOC_DQBUF)` | ESP-IDF 5.2+ | 本项目已在用 esp_video |
 | 硬编码模型到 rodata | Kconfig 可选 3 种 location（rodata/partition/sdcard） | human_face_detect v0.3.0 | 部署灵活性 |
 | MSR01 + MNP01（v2） | MSR_S8_V1 + MNP_S8_V1（int8 量化） | esp-dl v3.1.0 (2025-01) | 模型更小、推理更快 |
 **已弃用的做法：**
 - **CONFIG_BT_BLUFI_ENABLE**：不相关，但注意 esp-dl 与 WiFi 并存无冲突
 - **旧的 `dl_matrix3du_t`**：v3.0.0 起被 `dl::image::img_t` 替代
 ---
 ## Assumptions Log
 | # | 假设 | 所在章节 | 风险 |
 |---|------|---------|------|
 | A1 | `Esp32Camera` 的 YUYV 格式与 esp-dl 的 `DL_IMAGE_PIX_TYPE_YUYV` 字节序一致 | Code Examples | 若字节序相反（YUYV vs UYVY）颜色通道错乱，推理精度下降（bbox 仍可用但 score 低）。**缓解**：第一轮测试打印 score，若 < 0.5 则切换到 UYVY 或转 RGB565 |
 | A2 | ESP32-S3 QVGA 推理实测 FPS ≥ 10 | 摘要 | 实验室环境可能 8-12 FPS；若低于 5 FPS 需降级到 QQVGA 160×120 |
 | A3 | `uart_send_string` 不会因同时被多任务调用产生乱码 | Pattern 3 | UART driver 有内部锁，但 `uart_write_bytes` 本身不是 mutex-protected。**缓解**：新增 `uart_mutex_`，`uart_send_string` 和 `uart_send_face` 都加锁 |
 | A4 | 新增任务的 PSRAM 用量 ~500KB 不会导致其他组件 OOM | Pitfall 4 | 当前项目 PSRAM 总量 8MB，预估占用 2-3MB（LVGL+帧+AEC 等），余量充足但未精确测量 |
 | A5 | RP2040 `coms.py` 可以修改（不是只读代码库） | RP2040 改造 | GOAL.md 明确 RP2040 目录可改 |
 | A6 | 用户接受坐标发送频率固定为 10 FPS | 任务调度 | 需用户决策，见 Open Questions |
 **如果这张表为空：** 所有关键声明都经过验证或引用 — 无需用户确认。
 ---
 ## Open Questions
 1. **模型部署位置：rodata vs partition？**
   - 我们知道：人 face detect v0.4.1 支持三种位置；模型总大小 ~190KB（msr=60KB + mnp=127KB）。
   - 不确定：是否愿意让 `xiaozhi.bin` 增大 ~200KB（从 2.59MB 到 ~2.8MB，仍远小于 3.9MB ota 分区）？还是拆到独立 partition 以方便 OTA 独立更新？
   - 建议：**选 rodata（方案 A）**，简化 OTA 流程。ota_0/ota_1 仍有 ~1.1MB 余量。
 2. **坐标发送频率：5 FPS vs 10 FPS vs 动态？**
   - 我们知道：推理耗时 ~38ms，理论上限 20 FPS；RP2040 舵机响应时间 ~50ms；UART 带宽充足。
   - 不确定：用户希望人脸追踪有多"跟手"？过高帧率会加剧 Core 0 负载，可能影响音频。
   - 建议：**默认 10 FPS，通过 Kconfig 可调为 5/10/15**。
 3. **检测范围：始终开启 vs 仅 speaking/listening 时开启？**
   - 我们知道：GOAL.md 说"不破坏现有功能"、"可维护性：支持无 Grove 和有 Grove 两种模式自动切换"。
   - 不确定：idle 状态（未激活）时是否也要持续人脸检测？这会增加常态功耗。
   - 建议：**始终开启**，简化状态机；如果 OOM/性能问题再加 Kconfig 关闭 idle 时检测。
 4. **`face:x,y` 协议是否需要 score 字段？**
   - 当前设计：只发坐标，不发置信度。
   - 替代：`face:x,y,score\n`，RP2040 端可根据 score 判断是否响应。
   - 建议：**先不发 score**，减少解析复杂度；如果 false positive 多再加。
 5. **Kconfig 开关默认值：`y` vs `n`？**
   - 建议：`CONFIG_XIAOZHI_ENABLE_FACE_TRACKING default y`，与 Phase 目标"人脸追踪是默认功能"匹配。
   - 保留关闭选项以便调试、基线性能对比。
 6. **无脸超时策略：3 秒仍由 RP2040 处理 vs ESP32 显式发信号？**
   - 当前设计：ESP32 停止发 `face:`，RP2040 自动 `grove_active=False`（复用现有 3s 超时）。
   - 备选：ESP32 主动发 `face:none\n`，RP2040 立即切回随机动画。
   - 建议：**保持超时机制**，避免新协议；但打 TODO 如果感觉延迟明显再加显式信号。
 ---
 ## Environment Availability
 | 依赖 | 谁需要 | 可用 | 版本 | 回退 |
 |------|--------|------|------|------|
 | ESP-IDF | 构建系统 | ✓（dependencies.lock 锁定） | 5.4.2 | — |
 | PSRAM（8MB OCT） | LVGL、帧缓冲、esp-dl | ✓ | N16R8 | 无（N16R0/N4R2 无法运行） |
 | OV3660 + 飞线 | 摄像头采集 | ✓（已完成 3 根） | — | 若飞线虚焊需硬件重做 |
 | UART1（GPIO17/18） | 发送坐标 | ✓ | — | — |
 | RP2040 固件可修改 | 接收协议 | ✓（独立代码库） | MicroPython | — |
 | esp-dl + human_face_detect | 推理 | ✗（需 `idf.py add-dependency`） | 待安装 3.2.0 + 0.4.1 | 无（Phase 核心） |
 | OV3660 xiaozhi 兼容性 | Camera stack | ⚠️ | — | issue #1588 未 resolve；若复现需独立修复 |
 **缺失但无回退：**
 - esp-dl / human_face_detect — Phase 开工第一步就安装。
 **警示项：**
 - OV3660 + xiaozhi 的 issue #1588 — 需先 sanity test `cam->Capture()` 能工作；若失败先修驱动配置。
 ---
 ## Validation Architecture
 ### 测试框架
 | 属性 | 值 |
 |------|----|
 | 框架 | 无正式单元测试框架（xiaozhi 项目未使用 Unity） |
 | 配置文件 | 无 |
 | 快速运行命令 | 无—靠日志 + 手动测试 |
 | 完整套件命令 | `idf.py build && idf.py flash monitor` |
 **说明：** xiaozhi-esp32 项目本身没有 Unity/Catch2 测试基础设施，遵循手动 + 日志观测的验收方式。Phase 要求里规定了明确的 FPS / 延迟 / 功能正确性标准，用以下方式验收：
 ### Phase 需求 → 测试映射
 | 需求 | 行为 | 测试类型 | 自动化命令 | 文件存在？ |
 |------|------|---------|-----------|----------|
 | REQ-01 | QVGA 帧率 ≥ 5 FPS | 日志观测 | `grep "face detected" monitor.log \| tail -20`（估算间隔） | N/A |
 | REQ-02 | 人脸检测延迟 ≤ 200ms | 代码内置 timestamp | 在 face_tracker_task 里加 `esp_timer_get_time()` 前后对比，打 ESP_LOGI | 需新增埋点 |
 | REQ-03 | 坐标传输延迟 ≤ 50ms | UART 波特率推算 | 115200 bps @ 14 bytes ≈ 1ms，主要看 RP2040 处理速度 | RP2040 端埋点 `time.ticks_diff()` |
 | REQ-04 | 检测到脸时 RP2040 眼球追踪 | 手动观察 | 人在摄像头前移动，观察眼球 | 无 |
 | REQ-05 | 无脸 3 秒后回退随机动画 | 手动观察 | 遮挡摄像头 3s，观察眼球是否切换 | 无 |
 | REQ-06 | 语音对话不卡顿 | 手动观察 + 日志 | 启动 WebSocket 对话，开启 face_tracker，对比开关时的 Opus 日志 | 无 |
 | REQ-07 | 唤醒词仍生效 | 手动观察 | 说"你好小智"，检查是否进入 listening | 无 |
 | REQ-08 | UART 现有状态字符串仍工作 | 日志 + 手动 | 触发 `speaking`/`listening`，观察 RP2040 反应 | 无 |
 ### 采样策略
 - **每次代码修改：** 本地 `idf.py flash monitor`，人工观察 FPS 日志和舵机动作
 - **每个 wave 合并：** 录制 30s 视频，包含：(a) 人脸追踪 (b) 语音对话 (c) 两者同时
 - **Phase gate：** 在 CogNog V1.0 硬件上通过所有 8 个需求人工验收
 ### Wave 0 Gaps
 由于项目没有自动化测试框架，Wave 0 无需新增测试文件，但建议：
 - [ ] `main/face_tracker.cc` 内置性能埋点（推理耗时、FPS、无脸计数）
 - [ ] `main/uart_component.cc` 内置 face 协议发送计数器（ESP_LOGI 每 10 秒一次）
 - [ ] RP2040 `main.py` 在 parse_face 成功时打印 `print(f"ESP32 face: {offset}")`
 ---
 ## Sources
 ### Primary (HIGH confidence)
 - [esp-dl v3.2.0 release notes (2025-10-23)](https://github.com/espressif/esp-dl/releases) — 确认最新版本、ESP-IDF 5.3+ 依赖、双核调度特性
 - [human_face_detect v0.4.1 on ESP Component Registry](https://components.espressif.com/components/espressif/human_face_detect) — 确认模型大小、推理延迟、API 签名
 - [esp-dl v3.2.0 dependencies](https://components.espressif.com/components/espressif/esp-dl/versions/3.2.0/dependencies) — 确认 4 个依赖项和版本约束
 - [human_face_detect README](https://github.com/espressif/esp-dl/tree/master/models/human_face_detect) — 确认 ESP32-S3 上 msr_s8_v1_s3 耗时 32.4ms, mnp_s8_v1_s3 耗时 5.6ms
 - [human_face_detect example code (master)](https://github.com/espressif/esp-dl/blob/master/examples/human_face_detect/main/app_main.cpp) — 完整 run() 使用示例
 - [dl_image_define.hpp](https://github.com/espressif/esp-dl/blob/master/esp-dl/vision/image/dl_image_define.hpp) — 确认支持 YUYV / RGB565LE / RGB888 等输入格式
 - [dl_image_process.hpp](https://github.com/espressif/esp-dl/blob/master/esp-dl/vision/image/dl_image_process.hpp) — 确认 ImageTransformer 自动处理 resize/normalize
 - [dl_image_color.hpp](https://github.com/espressif/esp-dl/blob/master/esp-dl/vision/image/dl_image_color.hpp) — 确认 YUV→RGB565/888 转换支持
 - [human_face_detect partitions2.csv](https://github.com/espressif/esp-dl/blob/master/models/human_face_detect/partitions2.csv) — 确认分区名 `human_face_det`, 建议大小 200KB
 - 本项目源码：`main/boards/bread-compact-wifi-s3cam/`、`main/boards/common/esp32_camera.cc`、`main/uart_component.{h,cc}`、`main/application.cc`、`dependencies.lock` — 所有集成点已读
 - RP2040 源码：`/Users/rdzleo/Desktop/CogletESP-CogletESP/RP2040/{main,coms,animation}.py` — grove_active 机制、state_map/action_map、facetrack() 已读
 ### Secondary (MEDIUM confidence)
 - [OV3660 FPS @ QVGA benchmark](https://github.com/espressif/esp32-camera/issues/232) — 社区报告 18-20 FPS @ 20MHz XCLK（不同库但硬件相同，可作参考）
 - [ESP32-S3 face detection community reports](https://www.espressif.com/en/products/devkits/esp-eye/overview) — 官方声明 MSR01 可达 10-15 FPS
 - [xiaozhi issue #1588 OV3660 crash](https://github.com/78/xiaozhi-esp32/issues/1588) — 已知兼容性问题
 ### Tertiary (LOW confidence，需实机验证)
 - Core 0 vs Core 1 对音频的影响 — 基于 xiaozhi 项目已有经验法则（audio_input priority=8 Core 0, LVGL Core 1），无官方 esp-dl 文档明确要求
 - 实际 PSRAM 占用 500KB — 估算值，需要运行 `heap_caps_print_heap_info(MALLOC_CAP_SPIRAM)` 确认
 ---
 ## Metadata
 **置信度分解：**
 - Standard Stack: **HIGH** — 所有版本号、API 签名、模型大小均通过官方源验证
 - Architecture: **HIGH** — 现有代码已读，集成点清晰
 - Pitfalls: **MEDIUM-HIGH** — Pitfall 1-2 有 GitHub issue 背书；Pitfall 3-4 基于 esp-dl 文档 + 通用嵌入式经验
 - Performance numbers: **MEDIUM** — 官方 latency 数字 HIGH；FPS 上限是推算值，实测可能有 ±30% 偏差
 **Research date:** 2026-04-17
 **Valid until:** 2026-05-17（esp-dl 为活跃项目，30 天内可能发布 v3.3.0，届时需回查 release notes）
 ---
 ## 集成点清单（供 Planner 使用）
 ### 新增文件
 1. `main/face_tracker.h` + `main/face_tracker.cc` — 新增，任务封装
 2. `main/idf_component.yml` — 追加 esp-dl + human_face_detect 依赖
 3. `main/CMakeLists.txt` — 在 `set(SOURCES ...)` 加 `"face_tracker.cc"`
 ### 需修改文件
 | 文件 | 行号 | 修改内容 |
 |------|------|---------|
 | `main/uart_component.h` | 结尾 | 新增 `void uart_send_face(int x, int y);` |
 | `main/uart_component.cc` | 结尾 | 新增 `uart_send_face` 实现 |
 | `main/boards/common/esp32_camera.h` | L22 class 内 | 新增 `CaptureForDetection()` + `FrameRef` struct |
 | `main/boards/common/esp32_camera.cc` | 类外实现 | 新增 `CaptureForDetection()` 实现（或将 `frame_` 改为 protected 提供 getter） |
 | `main/application.cc` | L358 `Start()` 结尾 | 调用 `face_tracker_start()`（在 StartNetwork 之后） |
 | `main/application.cc` | L704/714/726 | **不需要修改**，现有 `uart_send_string("idle"/"listening"/"speaking")` 维持原状 |
 | `main/Kconfig.projbuild` | Camera Configuration menu 结尾 | 新增 `config XIAOZHI_ENABLE_FACE_TRACKING`（bool, default y, depends on 有摄像头的板型） |
 ### RP2040 端修改
 | 文件 | 行号 | 修改内容 |
 |------|------|---------|
 | `/Users/rdzleo/Desktop/CogletESP-CogletESP/RP2040/coms.py` | 新增方法 | `parse_face(line)` 解析 `face:x,y` 字符串 |
 | `/Users/rdzleo/Desktop/CogletESP-CogletESP/RP2040/coms.py` | `__init__` | 新增 `self.last_face_offset = None` |
 | `/Users/rdzleo/Desktop/CogletESP-CogletESP/RP2040/main.py` | L123-131 | 在 for 循环里优先判断 parse_face |
 | `/Users/rdzleo/Desktop/CogletESP-CogletESP/RP2040/main.py` | L38-54 `facetrack()` | 优先用 `external.last_face_offset`，fallback 到 `external.grove_read()` |
 ### 无需修改的组件
 - `main/main.cc` — `uart_init_component()` 调用点不变
 - `main/boards/bread-compact-wifi-s3cam/config.h` — GPIO17/18 已在 uart_component.h 配置，无冲突
 - `partitions/v2/16m.csv` — 选方案 A（rodata）无需改动
 - `sdkconfig.defaults.esp32s3` — 无需改动（PSRAM 已启用）
 - 现有 `display/display.cc` L42 `uart_send_string(emotion)` — 保持
 - LVGL / 音频 / WiFi / WebSocket 等所有模块 — 保持
 ---
 ## 任务架构总结
 | 任务名 | Core | 优先级 | 栈 | 说明 |
 |--------|------|-------|-----|------|
 | `main_event_loop` | 任意 | 3 | 8KB | 现有，不变 |
 | `audio_input` | 0 | 8 | 6KB | 现有，不变（最高优先级） |
 | `audio_output` | 任意 | 4 | 4KB | 现有，不变 |
 | LVGL port task | 1 | 2 | 8KB（默认） | 现有 `lcd_display.cc:131` `task_affinity=1` |
 | **`face_track`**（新增） | **0** | **2** | **8KB** | **10 FPS 限频，与 LVGL 分离 Core** |
 **Core 分配理由：**
 - Core 0 已跑：main_event_loop（P=3）、audio_input（P=8）
 - Core 1 已跑：LVGL port（P=2）
 - face_track 放 Core 0 P=2：不会抢占 audio_input（高优先级），不与 LVGL 在同一 Core 争抢
 - esp-dl 的 Conv2D 支持双核调度，会自动把计算分到 Core 1，理论上可用两核
--- a/main/CMakeLists.txt
+++ b/main/CMakeLists.txt
@ -37,6 +37,7 @@ set(SOURCES "audio/audio_codec.cc"
            "assets.cc"
            "main.cc"
            "uart_component.cc"
            "face_tracker.cc"
            )
 set(INCLUDE_DIRS "." "display" "display/lvgl_display" "display/lvgl_display/jpg" "audio" "protocols")
@ -705,6 +706,12 @@ if(CONFIG_IDF_TARGET_ESP32)
                             )
 endif()
 # [T05] 非 ESP32-S3 目标：face_tracker.cc 依赖 esp-dl / human_face_detect，无法编译
 # 虽然 .cc 内有 #if 守卫会退化为空壳，这里直接移除避免无谓的空编译
 if(NOT CONFIG_IDF_TARGET_ESP32S3)
    list(REMOVE_ITEM SOURCES "face_tracker.cc")
 endif()
 idf_component_register(SRCS ${SOURCES}
                    EMBED_FILES ${LANG_SOUNDS} ${COMMON_SOUNDS}
                    INCLUDE_DIRS ${INCLUDE_DIRS}
--- a/main/Kconfig.projbuild
+++ b/main/Kconfig.projbuild
@ -766,6 +766,39 @@ menu "Camera Configuration"
            comment "For 180° rotation, use HFlip + VFlip instead of this option"
        endchoice
    endif
    # [Phase 01] ESP32 人脸追踪：用板载摄像头 + esp-dl 替代 Grove Vision AI V2
    # 遵循 PLAN_CHECK NOTE-1 方案 B，仅支持 ESP32-S3 目标，与 CMake 排除逻辑一致
    config XIAOZHI_ENABLE_FACE_TRACKING
        bool "Enable ESP32 face tracking (replaces Grove Vision AI)"
        default y
        depends on IDF_TARGET_ESP32S3
        help
            开启后 ESP32 利用板载摄像头 + esp-dl 做人脸检测，
            通过 UART1 把归一化坐标 face:x,y\n 发给 RP2040，
            替代 Grove Vision AI V2 模块。关闭后退回纯显示/MCP 相机模式。
    if XIAOZHI_ENABLE_FACE_TRACKING
        choice XIAOZHI_FACE_TRACKING_FPS_CHOICE
            prompt "Face tracking coordinate FPS"
            default XIAOZHI_FACE_TRACKING_FPS_10
            help
                控制向 RP2040 发送坐标的频率，值越高追踪越跟手、CPU 占用越大。
            config XIAOZHI_FACE_TRACKING_FPS_5
                bool "5 FPS (低 CPU，适合调试音频冲突)"
            config XIAOZHI_FACE_TRACKING_FPS_10
                bool "10 FPS (推荐默认)"
            config XIAOZHI_FACE_TRACKING_FPS_15
                bool "15 FPS (最大跟手，慎用)"
        endchoice
        config XIAOZHI_FACE_TRACKING_FPS
            int
            default 5  if XIAOZHI_FACE_TRACKING_FPS_5
            default 10 if XIAOZHI_FACE_TRACKING_FPS_10
            default 15 if XIAOZHI_FACE_TRACKING_FPS_15
    endif
 endmenu
 menu "TAIJIPAI_S3_CONFIG"
--- a/main/application.cc
+++ b/main/application.cc
@ -18,6 +18,13 @@
 #include <font_awesome.h>
 #include <uart_component.h>
 // [T01] 临时 probe：验证 OV3660 + esp_video 底层采集链路（Phase 01）
 // 仅在非 ESP32（原版）目标上可用——esp32_camera 组件本身也是这个守卫
 #ifndef CONFIG_IDF_TARGET_ESP32
 #include <esp_timer.h>
 #include "boards/common/esp32_camera.h"
 #endif
 #define TAG "Application"
@ -543,6 +550,22 @@ void Application::Start() {
    });
    bool protocol_started = protocol_->Start();
    // [T01] 摄像头 V4L2 原始采集 sanity probe（Phase 01 验证 OV3660 底层链路）
    // 完成 T04 CaptureForDetection 后删除此段调用（保留 ProbeFrameCapture API 作诊断用）
 #ifndef CONFIG_IDF_TARGET_ESP32
    {
        auto* cam = dynamic_cast<Esp32Camera*>(board.GetCamera());
        if (cam) {
            int64_t elapsed = 0;
            bool ok = cam->ProbeFrameCapture(&elapsed);
            ESP_LOGI("T01_Probe", "V4L2 probe result=%d elapsed=%lldus",
                     ok, (long long)elapsed);
        } else {
            ESP_LOGW("T01_Probe", "no camera instance (board.GetCamera() returned null or non-Esp32Camera)");
        }
    }
 #endif
    SystemInfo::PrintHeapStats();
    SetDeviceState(kDeviceStateIdle);
--- a/main/boards/common/esp32_camera.cc
+++ b/main/boards/common/esp32_camera.cc
@ -95,6 +95,13 @@ static void log_available_video_devices() {
 #endif  // CONFIG_XIAOZHI_ENABLE_CAMERA_DEBUG_MODE
 Esp32Camera::Esp32Camera(const esp_video_init_config_t& config) {
    // [T04] 创建采集互斥锁：face_track 用 10ms timeout，MCP 拍照用 portMAX_DELAY
    capture_mutex_ = xSemaphoreCreateMutex();
    if (capture_mutex_ == nullptr) {
        ESP_LOGE(TAG, "xSemaphoreCreateMutex failed");
        return;
    }
    if (esp_video_init(&config) != ESP_OK) {
        ESP_LOGE(TAG, "esp_video_init failed");
        return;
@ -375,6 +382,11 @@ Esp32Camera::~Esp32Camera() {
        video_fd_ = -1;
    }
    sensor_format_ = 0;
    // [T04] 释放采集互斥锁
    if (capture_mutex_ != nullptr) {
        vSemaphoreDelete(capture_mutex_);
        capture_mutex_ = nullptr;
    }
    esp_video_deinit();
 }
@ -383,6 +395,81 @@ void Esp32Camera::SetExplainUrl(const std::string& url, const std::string& token
    explain_token_ = token;
 }
 // [T01] 最小化 V4L2 DQBUF/QBUF 探测
 // 只做一次 VIDIOC_DQBUF + VIDIOC_QBUF，不分配 PSRAM，不做格式转换/编码
 // 用途：验证 OV3660 + esp_video 底层采集链路（针对 xiaozhi issue #1588 定位）
 bool Esp32Camera::ProbeFrameCapture(int64_t* elapsed_us) {
    if (!streaming_on_ || video_fd_ < 0) {
        ESP_LOGE(TAG, "[T01] Probe 失败：streaming 未启动或 video_fd 无效");
        return false;
    }
    int64_t t0 = esp_timer_get_time();
    struct v4l2_buffer buf = {};
    buf.type = V4L2_BUF_TYPE_VIDEO_CAPTURE;
    buf.memory = V4L2_MEMORY_MMAP;
    // 只做一次 DQBUF：验证 V4L2 能获取帧
    if (ioctl(video_fd_, VIDIOC_DQBUF, &buf) != 0) {
        ESP_LOGE(TAG, "[T01] Probe 失败：VIDIOC_DQBUF 返回错误 errno=%d", errno);
        return false;
    }
    size_t bytes_used = buf.bytesused;
    // 立即归还，避免占用缓冲
    if (ioctl(video_fd_, VIDIOC_QBUF, &buf) != 0) {
        ESP_LOGE(TAG, "[T01] Probe 失败：VIDIOC_QBUF 归还失败 errno=%d", errno);
        return false;
    }
    int64_t t1 = esp_timer_get_time();
    if (elapsed_us) *elapsed_us = t1 - t0;
    ESP_LOGI(TAG, "[T01] Probe 成功：bytesused=%u elapsed=%lldus",
             (unsigned)bytes_used, (long long)(t1 - t0));
    return true;
 }
 // [T04] 人脸检测用帧采集：10ms 超短 timeout 拿不到 mutex 即跳帧
 // 语义：MCP Capture() 可能耗时 500-3000ms（JPEG 编码+HTTP），face_track 不能死等
 //       人脸检测允许丢帧，拍照不允许丢
 bool Esp32Camera::CaptureForDetection(FrameRef* out) {
    if (!streaming_on_ || video_fd_ < 0 || !out || capture_mutex_ == nullptr) {
        return false;
    }
    // 超短 timeout：拿不到锁就让上层跳过这一帧
    if (xSemaphoreTake(capture_mutex_, pdMS_TO_TICKS(10)) != pdTRUE) {
        return false;
    }
    struct v4l2_buffer buf = {};
    buf.type = V4L2_BUF_TYPE_VIDEO_CAPTURE;
    buf.memory = V4L2_MEMORY_MMAP;
    if (ioctl(video_fd_, VIDIOC_DQBUF, &buf) != 0) {
        xSemaphoreGive(capture_mutex_);
        return false;
    }
    out->data = (const uint8_t*)mmap_buffers_[buf.index].start;
    out->len = buf.bytesused;
    out->width = frame_.width;
    out->height = frame_.height;
    out->format = sensor_format_;
    out->buf_index = buf.index;
    // 注意：不在此处解锁！由 ReleaseDetectionFrame 配对解锁
    return true;
 }
 // [T04] 归还人脸检测帧：配对 CaptureForDetection
 // 内部执行 VIDIOC_QBUF 归还缓冲，并释放 capture_mutex_
 bool Esp32Camera::ReleaseDetectionFrame(const FrameRef& ref) {
    if (video_fd_ < 0) {
        if (capture_mutex_ != nullptr) xSemaphoreGive(capture_mutex_);
        return false;
    }
    struct v4l2_buffer buf = {};
    buf.type = V4L2_BUF_TYPE_VIDEO_CAPTURE;
    buf.memory = V4L2_MEMORY_MMAP;
    buf.index = ref.buf_index;
    int ret = ioctl(video_fd_, VIDIOC_QBUF, &buf);
    if (capture_mutex_ != nullptr) xSemaphoreGive(capture_mutex_);
    return ret == 0;
 }
 bool Esp32Camera::Capture() {
    if (encoder_thread_.joinable()) {
        encoder_thread_.join();
@ -392,6 +479,18 @@ bool Esp32Camera::Capture() {
        return false;
    }
    // [T04] MCP 拍照用 portMAX_DELAY：拍照不允许丢，可以等 face_track 的一次推理完成
    // 使用 RAII guard 确保函数任何 return 路径都释放锁
    struct CaptureLockGuard {
        SemaphoreHandle_t mtx;
        explicit CaptureLockGuard(SemaphoreHandle_t m) : mtx(m) {
            if (mtx) xSemaphoreTake(mtx, portMAX_DELAY);
        }
        ~CaptureLockGuard() {
            if (mtx) xSemaphoreGive(mtx);
        }
    } _cap_lock(capture_mutex_);
    for (int i = 0; i < 3; i++) {
        struct v4l2_buffer buf = {};
        buf.type = V4L2_BUF_TYPE_VIDEO_CAPTURE;
--- a/main/boards/common/esp32_camera.h
+++ b/main/boards/common/esp32_camera.h
@ -9,6 +9,7 @@
 #include <freertos/FreeRTOS.h>
 #include <freertos/queue.h>
 #include <freertos/semphr.h>
 #include "camera.h"
 #include "jpg/image_to_jpeg.h"
@ -20,6 +21,18 @@ struct JpegChunk {
 };
 class Esp32Camera : public Camera {
 public:
    // [T04] 人脸检测用帧引用：zero-copy 指向 mmap 缓冲区
    // 使用者获得后必须在短时间内调用 ReleaseDetectionFrame 归还，否则 V4L2 流会卡死
    struct FrameRef {
        const uint8_t* data = nullptr;
        size_t len = 0;
        uint16_t width = 0;
        uint16_t height = 0;
        v4l2_pix_fmt_t format = 0;
        uint32_t buf_index = 0;  // 用于 VIDIOC_QBUF 归还
    };
 private:
    struct FrameBuffer {
        uint8_t *data = nullptr;
@ -41,6 +54,10 @@ private:
    std::string explain_token_;
    std::thread encoder_thread_;
    // [T04] 采集互斥锁：face_track 和 MCP 拍照共享 V4L2 DQBUF 单槽
    // 使用 FreeRTOS 信号量（非 std::mutex）以获得 timeout 语义
    SemaphoreHandle_t capture_mutex_ = nullptr;
 public:
    Esp32Camera(const esp_video_init_config_t& config);
    ~Esp32Camera();
@ -51,6 +68,24 @@ public:
    virtual bool SetHMirror(bool enabled) override;
    virtual bool SetVFlip(bool enabled) override;
    virtual std::string Explain(const std::string& question);
    // [T01] 最小化 V4L2 DQBUF/QBUF 探测方法
    // 用途：验证 OV3660 + esp_video 底层采集链路是否正常工作
    // 不做 JPEG 编码、不做 PSRAM 大分配、不触发 encoder_thread
    // 调用链路：VIDIOC_DQBUF → 立即 VIDIOC_QBUF 归还
    // @param elapsed_us 输出参数，返回两次 ioctl 间的耗时（微秒）
    // @return 成功返回 true；streaming 未启动或 ioctl 失败返回 false
    bool ProbeFrameCapture(int64_t* elapsed_us);
    // [T04] 人脸检测用帧采集：超短 timeout（10ms）拿不到锁则跳帧
    // 语义：人脸检测允许丢帧，拍照不允许丢
    // 成功返回 true 后，out 指向的缓冲有效期到 ReleaseDetectionFrame 为止
    // 必须配对调用：Capture 成功 → Release 归还（否则 V4L2 队列耗尽）
    bool CaptureForDetection(FrameRef* out);
    // [T04] 归还人脸检测帧：配对 CaptureForDetection
    // 内部执行 VIDIOC_QBUF 将缓冲归还给 V4L2 驱动，并释放 capture_mutex_
    bool ReleaseDetectionFrame(const FrameRef& ref);
 };
 #endif // ndef CONFIG_IDF_TARGET_ESP32
--- a/main/face_tracker.cc
+++ b/main/face_tracker.cc
@ -0,0 +1,179 @@
 // [T05/T06] 人脸追踪任务
 // 只有 ESP32-S3 + CONFIG_XIAOZHI_ENABLE_FACE_TRACKING=y 才编译完整实现
 // 其他情况编译 3 个空函数，保证链接通过
 #include "face_tracker.h"
 #include "sdkconfig.h"
 #if defined(CONFIG_XIAOZHI_ENABLE_FACE_TRACKING) && defined(CONFIG_IDF_TARGET_ESP32S3)
 #include "human_face_detect.hpp"
 #include "dl_image_define.hpp"
 #include "dl_detect_define.hpp"
 #include "board.h"
 #include "esp32_camera.h"
 #include <esp_heap_caps.h>
 #include <esp_log.h>
 #include <esp_timer.h>
 #include <freertos/FreeRTOS.h>
 #include <freertos/task.h>
 #include <list>
 #include <new>
 static const char* TAG = "FaceTracker";
 static TaskHandle_t s_handle = nullptr;
 static volatile bool s_stop = false;
 static float s_last_fps = 0.0f;
 // T06: uart_send_face 由 T07 在 uart_component.{h,cc} 中提供
 // 此处用前向声明 + 弱符号，让 T07 完成前 face_tracker.cc 仍能通过编译
 // T07 完成后该弱符号被真实实现覆盖，无需改动本文件
 extern "C" __attribute__((weak)) void uart_send_face(int x_offset, int y_offset);
 static void face_tracker_task(void* arg) {
    (void)arg;
    // 等待摄像头 ISP 预热 + 视频流启动稳定
    vTaskDelay(pdMS_TO_TICKS(500));
    ESP_LOGI(TAG, "face_tracker task started on core %d", xPortGetCoreID());
    // 构造检测器：默认 model_type 由 CONFIG_DEFAULT_HUMAN_FACE_DETECT_MODEL 决定
    // lazy_load=true（默认）以减少启动期内存瞬时占用
    auto* detector = new(std::nothrow) HumanFaceDetect();
    if (!detector) {
        ESP_LOGE(TAG, "HumanFaceDetect 构造失败（PSRAM 不足？）");
        multi_heap_info_t info;
        heap_caps_get_info(&info, MALLOC_CAP_SPIRAM);
        ESP_LOGE(TAG, "PSRAM free=%u total_allocated=%u",
                 (unsigned)info.total_free_bytes,
                 (unsigned)info.total_allocated_bytes);
        s_handle = nullptr;
        vTaskDelete(NULL);
        return;
    }
    // 一次性打印启动时 PSRAM 占用供诊断（RESEARCH R2 风险跟踪）
    {
        multi_heap_info_t info;
        heap_caps_get_info(&info, MALLOC_CAP_SPIRAM);
        ESP_LOGI(TAG, "PSRAM after detector init: free=%u allocated=%u",
                 (unsigned)info.total_free_bytes,
                 (unsigned)info.total_allocated_bytes);
    }
    // 按 Kconfig 配置的 FPS 计算节拍
    const TickType_t period = pdMS_TO_TICKS(1000 / CONFIG_XIAOZHI_FACE_TRACKING_FPS);
    TickType_t last_wake = xTaskGetTickCount();
    int hit = 0, miss = 0;
    int64_t last_report_us = esp_timer_get_time();
    while (!s_stop) {
        vTaskDelayUntil(&last_wake, period);
        auto* cam = dynamic_cast<Esp32Camera*>(Board::GetInstance().GetCamera());
        if (!cam) {
            continue;
        }
        Esp32Camera::FrameRef f;
        if (!cam->CaptureForDetection(&f)) {
            // [T04 策略] 拿不到 mutex（MCP 拍照中）或 DQBUF 失败 → 正常跳帧
            continue;
        }
        // 组装 esp-dl 图像描述符
        // RESEARCH Pitfall A1：先假定 YUYV；若首轮 score 低于 0.5 可改 RGB565LE（决策点 D-B）
        dl::image::img_t img{};
        img.data = (void*)f.data;
        img.width = f.width;
        img.height = f.height;
        img.pix_type = dl::image::DL_IMAGE_PIX_TYPE_YUYV;
        int64_t t0 = esp_timer_get_time();
        auto& results = detector->run(img);
        int64_t t1 = esp_timer_get_time();
        // 立即归还 V4L2 缓冲，避免 face_track 占用时间长
        cam->ReleaseDetectionFrame(f);
        if (results.empty()) {
            miss++;
        } else {
            hit++;
            // PLAN 未明确排序策略，esp-dl 内部 nms 后 list 顺序不稳定
            // 为健壮性，挑 score 最高的那个（避免多脸时摇摆）
            const dl::detect::result_t* best = nullptr;
            for (const auto& r : results) {
                if (best == nullptr || r.score > best->score) {
                    best = &r;
                }
            }
            // box: [left_up_x, left_up_y, right_down_x, right_down_y]
            int cx = (best->box[0] + best->box[2]) / 2;
            int cy = (best->box[1] + best->box[3]) / 2;
            // 坐标映射（RESEARCH Pitfall 7）：严格保持 cx * 224 / width - 112
            // 对齐 RP2040 端 deadzone=20 / x_adj_factor=10 的基准
            int x_offset = (f.width  > 0) ? (cx * 224 / f.width  - 112) : 0;
            int y_offset = (f.height > 0) ? (cy * 224 / f.height - 112) : 0;
            // T07 完成后，uart_send_face 弱符号会被真实实现覆盖
            if (uart_send_face != nullptr) {
                uart_send_face(x_offset, y_offset);
            }
            ESP_LOGD(TAG, "face score=%.2f offset=(%d,%d) infer=%lldus",
                     best->score, x_offset, y_offset, (long long)(t1 - t0));
        }
        // 每 10 秒汇报一次统计（加保底避免除零）
        int64_t now = esp_timer_get_time();
        if (now - last_report_us > 10000000LL) {
            float elapsed_s = (now - last_report_us) / 1e6f;
            if (elapsed_s > 0.1f) {
                s_last_fps = (hit + miss) / elapsed_s;
                ESP_LOGI(TAG, "face stats: hit=%d miss=%d fps=%.1f",
                         hit, miss, s_last_fps);
            }
            hit = miss = 0;
            last_report_us = now;
        }
    }
    delete detector;
    ESP_LOGI(TAG, "face_tracker task exiting");
    s_handle = nullptr;
    vTaskDelete(NULL);
 }
 extern "C" void face_tracker_start(void) {
    if (s_handle != nullptr) {
        ESP_LOGW(TAG, "face_tracker already running, ignore start");
        return;
    }
    s_stop = false;
    // Core 0 + 优先级 2：低于 LVGL / 音频，避免抢占主路径
    // 栈 8KB：给 esp-dl 推理留充足空间
    BaseType_t ok = xTaskCreatePinnedToCore(
        face_tracker_task, "face_track",
        8 * 1024, nullptr, 2, &s_handle, 0);
    if (ok != pdPASS) {
        ESP_LOGE(TAG, "xTaskCreatePinnedToCore failed");
        s_handle = nullptr;
    }
 }
 extern "C" void face_tracker_stop(void) {
    s_stop = true;
 }
 extern "C" float face_tracker_get_fps(void) {
    return s_last_fps;
 }
 #else  // 非 S3 或功能未启用：提供空壳，保证链接通过
 extern "C" void face_tracker_start(void) {}
 extern "C" void face_tracker_stop(void) {}
 extern "C" float face_tracker_get_fps(void) { return 0.0f; }
 #endif  // CONFIG_XIAOZHI_ENABLE_FACE_TRACKING && CONFIG_IDF_TARGET_ESP32S3
--- a/main/face_tracker.h
+++ b/main/face_tracker.h
@ -0,0 +1,24 @@
 #pragma once
 // [T05] 人脸追踪模块 C 可见接口
 // 三重保护：
 //   1. Kconfig: XIAOZHI_ENABLE_FACE_TRACKING depends on IDF_TARGET_ESP32S3
 //   2. 本模块 .cc 内 #if defined(CONFIG_...) && defined(CONFIG_IDF_TARGET_ESP32S3) 包裹实现
 //   3. CMakeLists.txt 在非 S3 目标时从 SOURCES 中移除 face_tracker.cc
 #ifdef __cplusplus
 extern "C" {
 #endif
 // 启动人脸检测任务。Kconfig 未开启 / 非 S3 时本函数为空壳。
 // 幂等：重复调用不会创建多个任务。
 void face_tracker_start(void);
 // 请求停止人脸检测任务（异步，任务会在下一帧自行退出）。
 void face_tracker_stop(void);
 // 供日志/诊断查询最近一次 10 秒统计窗口的实际 FPS（命中+未命中 / 间隔）。
 float face_tracker_get_fps(void);
 #ifdef __cplusplus
 }
 #endif
--- a/main/idf_component.yml
+++ b/main/idf_component.yml
@ -24,7 +24,10 @@ dependencies:
  78/xiaozhi-fonts: ~1.5.5
  espressif/led_strip: ~3.0.1
  espressif/esp_codec_dev: ~1.5
-  espressif/esp-sr: ~2.2.0
+  # [Phase 01] 2026-04-17 升级：从 ~2.2.0 升到 ~2.3.1 以解决 esp-dsp 版本冲突
  # esp-sr 2.2.x 依赖 esp-dsp==1.6.0，而 esp-dl 3.3.0 依赖 esp-dsp==1.7.0
  # esp-sr 2.3.0+ 已切换到 esp-dsp 1.7.0，与 esp-dl 兼容
  espressif/esp-sr: ~2.3.1
  espressif/button: ~4.1.3
  espressif/knob: ^1.0.0
  espressif/esp_video:
@ -54,6 +57,18 @@ dependencies:
  espressif/adc_battery_estimation: ^0.2.0
  espressif/esp_new_jpeg: ^0.6.1
  # [Phase 01] esp-dl 人脸检测依赖（仅 S3 目标）
  # 偏差记录 2026-04-17: PLAN 原定 esp-dl==3.2.0，但 human_face_detect 0.4.1
  # 实际依赖 esp-dl ~3.3.0（registry 版本约束），升级到 ~3.3.0 以解决版本冲突
  espressif/esp-dl:
    version: "~3.3.0"
    rules:
    - if: target in [esp32s3, esp32p4]
  espressif/human_face_detect:
    version: "==0.4.1"
    rules:
    - if: target in [esp32s3, esp32p4]
  # SenseCAP Watcher Board
  wvirgil123/sscma_client:
    version: 1.0.2
--- a/main/uart_component.cc
+++ b/main/uart_component.cc
@ -1,7 +1,14 @@
 #include "uart_component.h"
 #include "freertos/FreeRTOS.h"
 #include "freertos/task.h"
 #include "freertos/semphr.h"
 #include <string.h>
 #include <stdio.h>
 // T07: UART TX 全局互斥锁
 // 保护所有 uart_write_bytes 调用，防止 face_tracker 任务与 application 任务并发
 // 写入造成帧交织（RESEARCH A3）
 static SemaphoreHandle_t s_uart_tx_mutex = nullptr;
 // 初始化 ESP32 → RP2040 的 UART 通信
 // 波特率 115200，8 数据位，无校验，1 停止位，无流控
@ -17,22 +24,52 @@ void uart_init_component() {
    // GPIO17=TX（发送到 RP2040 的 GP5/RX），GPIO18=RX（接收 RP2040 的 GP4/TX）
    uart_set_pin(UART_PORT_NUM, TXD_PIN, RXD_PIN, UART_PIN_NO_CHANGE, UART_PIN_NO_CHANGE);
    uart_driver_install(UART_PORT_NUM, BUF_SIZE, 0, 0, NULL, 0);
    // T07: 创建 TX 全局互斥锁
    if (s_uart_tx_mutex == nullptr) {
        s_uart_tx_mutex = xSemaphoreCreateMutex();
    }
 }
 // 发送状态字符串给 RP2040，末尾自动添加 \r\n
 // RP2040 的 main.py 通过 coms.esp_read() 按 \n 分割解析
 // 支持的状态字符串：idle / listening / speaking / thinking / neutral / happy 等
 // T07: 加锁，防与 uart_send_face 并发撕包
 void uart_send_string(const char* str) {
    if (s_uart_tx_mutex != nullptr) {
        xSemaphoreTake(s_uart_tx_mutex, portMAX_DELAY);
    }
    uart_write_bytes(UART_PORT_NUM, str, strlen(str));
    uart_write_bytes(UART_PORT_NUM, "\r\n", 2);
    if (s_uart_tx_mutex != nullptr) {
        xSemaphoreGive(s_uart_tx_mutex);
    }
 }
 // 发送说话开始信号（预留接口，RP2040 当前未使用）
 // 注意：经由 uart_send_string 间接加锁
 void uart_signal_start() {
    uart_send_string("[SPEAK_START]\n");
 }
 // 发送说话停止信号（预留接口，RP2040 当前未使用）
 // 注意：经由 uart_send_string 间接加锁
 void uart_signal_stop() {
    uart_send_string("[SPEAK_STOP]\n");
 }
 // T07: 发送人脸检测坐标到 RP2040
 // 格式："face:<x>,<y>\r\n"，x/y ∈ [-112, +112]（RP2040 pixel_centre=112）
 // 由 face_tracker 任务以 Kconfig FPS 频率调用（默认 10 FPS）
 // 必须是 C 链接（extern "C"）——face_tracker.cc 用 weak 符号前置声明，
 // 链接时本 strong 实现自动覆盖 weak。
 extern "C" void uart_send_face(int x_offset, int y_offset) {
    if (s_uart_tx_mutex == nullptr) return;  // UART 未初始化，直接丢弃
    char buf[24];
    int n = snprintf(buf, sizeof(buf), "face:%d,%d", x_offset, y_offset);
    if (n <= 0 || n >= (int)sizeof(buf)) return;  // 格式化失败/截断
    xSemaphoreTake(s_uart_tx_mutex, portMAX_DELAY);
    uart_write_bytes(UART_PORT_NUM, buf, n);
    uart_write_bytes(UART_PORT_NUM, "\r\n", 2);
    xSemaphoreGive(s_uart_tx_mutex);
 }
--- a/main/uart_component.h
+++ b/main/uart_component.h
@ -18,3 +18,15 @@ void uart_send_string(const char* str);
 void uart_signal_start();
 // 发送说话停止信号
 void uart_signal_stop();
 // 发送人脸检测坐标，格式："face:<x>,<y>\r\n"
 // x,y ∈ [-112, +112]，RP2040 端 pixel_centre=112 解析（T07）
 // 使用 C 链接名：face_tracker.cc 以 `extern "C" __attribute__((weak))` 前向声明该符号，
 // 链接器用此 strong 实现自动覆盖 weak 版本。不可改为 C++ 名字修饰。
 #ifdef __cplusplus
 extern "C" {
 #endif
 void uart_send_face(int x_offset, int y_offset);
 #ifdef __cplusplus
 }
 #endif