Baji_Rtc_Toy

Rdzleo/Baji_Rtc_Toy

Fork 0

Commit Graph

Author	SHA1	Message	Date
Rdzleo	eceadda807	feat(ui): Phase 10 step 1+2 - 背景图 + 中文字幕 + 数字人透明完成数字人模式 UI 的"背景图叠加 + 实时字幕"功能。所有改动基于 EAF 框架（Phase 10 commit 31982ba），保持 0 个 lv_* UI 函数链接进固件。 Step 1: JPG 背景图叠加 - ai_chat_ui_eaf.c 加 esp_jpeg 解码 Background_360x360.jpg → RGB565 buffer (252KB PSRAM) → gfx_img_create 作为底层 - z-index 通过创建顺序控制: 背景 → 数字人 anim → 字幕 label - 选项 A 保留 JPG (~20KB SPIFFS) 比选项 B (252KB .bin) 省 232KB 数字人透明: esp_emote_gfx local patch (gfx_anim.c::gfx_anim_render_24bit_pixels) - 根因: 在线 EAF Packer 默认导出 24-bit 模式，工具不暴露 bit_depth 选项，alpha 滑块拉到 0 无法保存，导致 GIF 透明像素被烘焙成屏幕背景色 (黑色 RGB888 #000000) - 解决: 在 24-bit 渲染函数加 chroma key，跳过近黑像素让背景图露出 - 阈值演化 v1 (0x0000) → v3 (16) → v4 (24)，最终 RGB888 ≤ (24,24,24) - 保留 R/G/B AND 关系（三分量都小才透明），保护数字人本体暗色不破洞 - 双字节序判定，兼容 disp_config_t.flags.swap = true Step 2: 中文字幕 (gfx_label + LVGL bitmap font 方案 A) - 字体方案对比 3 方案后选方案 A（C 数组 XIP from Flash）: • A: 1.4MB Flash + 0 RAM (推荐) • B: xiaozhi-fonts .bin 1.18MB SPIFFS + 1.18MB PSRAM • C: 自转 .bin ~2.8MB 总占用 - extern const lv_font_t font_puhui_20_4 → gfx_label_set_font 直接喂 - linker 副作用: 仅引入 7 个 LVGL 函数 ~2.2KB（lv_font_get_bitmap_fmt_txt / lv_mem_* 幽灵符号），无 lv_obj/lv_disp/lv_indev 等 UI 框架函数 - 字幕参数: 300×56 (2 行限制) + 行间距 4 + 贴底 y_ofs=-4 - GFX_LABEL_LONG_WRAP 字符级断行（中文友好），CENTER 居中 - 流式 TTS 节流 50ms（比 LVGL 100ms 短，EAF 渲染更快）工具脚本 (tools/patch_eaf_transparency.py) - 探索性脚本：解析 hiyori-assets.bin 尝试修补 EAF palette alpha - 实际未生效（工具导出 24-bit 无 palette），保留作为 EAF bin layout 解析参考固件大小: 2.75MB → 4.30MB（+1.55MB = 字体 1.4MB + 字幕代码 + 背景图代码）分区余量: 50% → 25% (1.42MB 空闲，安全) 完整踩坑经验已沉淀到 ~/.claude/CLAUDE.md §13 + 项目 memory。 Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>	2026-05-15 17:38:31 +08:00
Rdzleo	7d1c7dc1f0	feat(rtc-only): Phase 3 - 数字人 GIF 资源准备（hiyori m03/m06/m07，209x360）按 GSD 框架 .planning/milestones/digital_human_rtc/phases/phase_03_gif_resources/ 规划完成 Phase 3 数字人表情 GIF 资源处理。 ## 处理方式（与 PoC 阶段 hiyori_m05.gif 一致） ```bash gifsicle --resize _x360 -O3 input.gif -o output.gif ``` - 高度 = LCD 360px，宽度按原比例自动算 → 209px - 不裁剪（保持源 GIF 完整人物） - 不加 --lossy / --colors（保留 256 色，画质优先） - 只用 -O3 优化文件大小 ## 处理结果 \| GIF \| 用途 \| 源 \| 处理后 \| 节省 \| \|-----\|------\|-----\|--------\|------\| \| m03 \| 负面/严肃 \| 407×700 3.3MB \| 209×360 1.15MB \| 66% \| \| m06 \| 默认/积极 \| 407×700 1.3MB \| 209×360 0.44MB \| 66% \| \| m07 \| 思考/疲倦 \| 407×700 1.2MB \| 209×360 0.40MB \| 66% \| \| 合计 \| — \| 5.7MB \| 1.94MB \| 66% \| ## 决策过程（避免后续重复犯错） Phase 3 初稿曾尝试裁剪到 240×320 + PIL 全帧 bbox 居中裁剪，用户烧录后反馈"视觉感官不好"——角色被横向压扁（240×320 纵横比 0.75 vs 源 407×700 纵横比 0.583）。回归 PoC 等比例缩放方式后效果与 PoC 一致。 PoC 处理标准已写入用户级 feedback memory（feedback_hiyori_gif_processing.md），后续 hiyori GIF 处理一律用本方式，除非用户主动要求修改。 ## 显示效果（用户已目视确认） LCD 360×360 居中显示 209×360 GIF： - 垂直方向: 360 = 360，完全充满 - 横向: 209 < 360，左右各 75.5px 留边显示背景图 - 角色比例: 完整保留源 GIF 的 407:700 = 0.582 纵横比，人物细高自然 ## 删除项 - spiffs_image/hiyori_m05.gif (2.3MB) 已删除 - 被 m06/m07/m03 替代文件历史保留在 git，可通过 git show eb96130:spiffs_image/hiyori_m05.gif 恢复 ## 默认表情切换 main/dzbj/ai_chat_ui.c:234: - PoC: bg_gif_demo_start(..., "/spiflash/hiyori_m05.gif") - Phase 3: bg_gif_demo_start(..., "/spiflash/hiyori_m06.gif") ## 烧录运行时验证 - 烧录后 0 次重启（连续监控 18 秒） - BG_GIF: GIF 已加载到 PSRAM: /spiflash/hiyori_m06.gif (441.8 KB) - AudioCodec: Audio codec started（首次冷启动直接成功） - 用户目视确认显示效果良好 ## GSD 文档（同时提交） - .planning/milestones/digital_human_rtc/phases/phase_03_gif_resources/PLAN.md - .planning/milestones/digital_human_rtc/phases/phase_03_gif_resources/GIF_REPORT.md ## SPIFFS 容量新 SPIFFS 4.94MB 当前实际占用 ~2MB（40%），余量 ~2.94MB 充足。	2026-05-13 11:42:30 +08:00
Rdzleo	eb96130fc9	feat(Rtc_AIavatar): 数字人透明 GIF 显示方案 PoC 完成（背景图+透明GIF叠加）源代码变更: - main/dzbj/bg_gif_demo.c/h: 方案 C 最终实现 - JPG 背景图(lv_img) + 透明 GIF(lv_gif) 叠加 - main/dzbj/dual_gif_demo.c/h: 方案 B 中间产物 - 双 GIF 循环切换 - main/dzbj/sprite_demo.c/h: 方案 A 已弃用 - DMA 直写 GRAM 与 LVGL 争抢 LCD IO 失败 - main/dzbj/ai_chat_ui.c: 集成 USE_BG_GIF_POC 开关，加载背景图+透明 GIF - main/dzbj/lcd.c: panel_handle 移除 static，便于其他模块访问 - main/CMakeLists.txt: 新增 3 个 dzbj 模块编译资源新增: - spiffs_image/Background_360x360.jpg: 设备背景图(20KB) - spiffs_image/hiyori_m05.gif: Cubism Editor 直接导出的透明 GIF(2.3MB) - docs/Rtc_AIavatar/: Live2D 模型(Hiyori/Haru) + 32 段 Haru GIF + 方案文档第18章 PoC 实战记录 - tools/sprite_poc/: Python GIF→RGB565 转换脚本踩坑要点(详见 docs/Rtc_AIavatar 第18章): - PIL Image.quantize() 会破坏 RGBA 透明度，必须改用 gifsicle - PIL 保存动画 GIF 仅第1帧有透明，后续帧不透明 - LVGL gifdec 按帧读取 - Cubism Editor 直接导出 GIF 才能逐帧保留透明信息(FREE 版限制部分模型) - gifsicle --lossy 会严重锯齿化，去掉只保留 --colors 256 + -O3 即可 - 裁剪居中需用全帧 bbox 不能只看第1帧(Live2D 角色每帧位置有偏移) - LVGL 默认不支持 PNG，背景图用 JPG + esp_jpeg 解码到 RGB565 buffer - 透明 GIF 显示黑色背景: gifdec.c canvas 初始化 alpha 须改为 0x00	2026-05-12 17:14:49 +08:00

Author

SHA1

Message

Date

Rdzleo

eceadda807

feat(ui): Phase 10 step 1+2 - 背景图 + 中文字幕 + 数字人透明

完成数字人模式 UI 的"背景图叠加 + 实时字幕"功能。所有改动基于 EAF
框架（Phase 10 commit 31982ba），保持 0 个 lv_* UI 函数链接进固件。

Step 1: JPG 背景图叠加
- ai_chat_ui_eaf.c 加 esp_jpeg 解码 Background_360x360.jpg →
  RGB565 buffer (252KB PSRAM) → gfx_img_create 作为底层
- z-index 通过创建顺序控制: 背景 → 数字人 anim → 字幕 label
- 选项 A 保留 JPG (~20KB SPIFFS) 比选项 B (252KB .bin) 省 232KB

数字人透明: esp_emote_gfx local patch (gfx_anim.c::gfx_anim_render_24bit_pixels)
- 根因: 在线 EAF Packer 默认导出 24-bit 模式，工具不暴露 bit_depth
  选项，alpha 滑块拉到 0 无法保存，导致 GIF 透明像素被烘焙成屏幕背景
  色 (黑色 RGB888 #000000)
- 解决: 在 24-bit 渲染函数加 chroma key，跳过近黑像素让背景图露出
- 阈值演化 v1 (0x0000) → v3 (16) → v4 (24)，最终 RGB888 ≤ (24,24,24)
- 保留 R/G/B AND 关系（三分量都小才透明），保护数字人本体暗色不破洞
- 双字节序判定，兼容 disp_config_t.flags.swap = true

Step 2: 中文字幕 (gfx_label + LVGL bitmap font 方案 A)
- 字体方案对比 3 方案后选方案 A（C 数组 XIP from Flash）:
  • A: 1.4MB Flash + 0 RAM (推荐)
  • B: xiaozhi-fonts .bin 1.18MB SPIFFS + 1.18MB PSRAM
  • C: 自转 .bin ~2.8MB 总占用
- extern const lv_font_t font_puhui_20_4 → gfx_label_set_font 直接喂
- linker 副作用: 仅引入 7 个 LVGL 函数 ~2.2KB（lv_font_get_bitmap_fmt_txt
  / lv_mem_* 幽灵符号），无 lv_obj/lv_disp/lv_indev 等 UI 框架函数
- 字幕参数: 300×56 (2 行限制) + 行间距 4 + 贴底 y_ofs=-4
- GFX_LABEL_LONG_WRAP 字符级断行（中文友好），CENTER 居中
- 流式 TTS 节流 50ms（比 LVGL 100ms 短，EAF 渲染更快）

工具脚本 (tools/patch_eaf_transparency.py)
- 探索性脚本：解析 hiyori-assets.bin 尝试修补 EAF palette alpha
- 实际未生效（工具导出 24-bit 无 palette），保留作为 EAF bin layout
  解析参考

固件大小: 2.75MB → 4.30MB（+1.55MB = 字体 1.4MB + 字幕代码 + 背景图代码）
分区余量: 50% → 25% (1.42MB 空闲，安全)

完整踩坑经验已沉淀到 ~/.claude/CLAUDE.md §13 + 项目 memory。

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-15 17:38:31 +08:00

Rdzleo

7d1c7dc1f0

feat(rtc-only): Phase 3 - 数字人 GIF 资源准备（hiyori m03/m06/m07，209x360）

按 GSD 框架 .planning/milestones/digital_human_rtc/phases/phase_03_gif_resources/
规划完成 Phase 3 数字人表情 GIF 资源处理。

## 处理方式（与 PoC 阶段 hiyori_m05.gif 一致）

```bash
gifsicle --resize _x360 -O3 input.gif -o output.gif
```

- 高度 = LCD 360px，宽度按原比例自动算 → 209px
- 不裁剪（保持源 GIF 完整人物）
- 不加 --lossy / --colors（保留 256 色，画质优先）
- 只用 -O3 优化文件大小

## 处理结果

| GIF | 用途 | 源 | 处理后 | 节省 |
|-----|------|-----|--------|------|
| m03 | 负面/严肃 | 407×700 3.3MB | 209×360 1.15MB | 66% |
| m06 | 默认/积极 | 407×700 1.3MB | 209×360 0.44MB | 66% |
| m07 | 思考/疲倦 | 407×700 1.2MB | 209×360 0.40MB | 66% |
| 合计 | — | 5.7MB | 1.94MB | 66% |

## 决策过程（避免后续重复犯错）

Phase 3 初稿曾尝试裁剪到 240×320 + PIL 全帧 bbox 居中裁剪，
用户烧录后反馈"视觉感官不好"——角色被横向压扁（240×320 纵横比 0.75
vs 源 407×700 纵横比 0.583）。回归 PoC 等比例缩放方式后效果与 PoC 一致。

PoC 处理标准已写入用户级 feedback memory（feedback_hiyori_gif_processing.md），
后续 hiyori GIF 处理一律用本方式，除非用户主动要求修改。

## 显示效果（用户已目视确认）

LCD 360×360 居中显示 209×360 GIF：
- 垂直方向: 360 = 360，完全充满
- 横向: 209 < 360，左右各 75.5px 留边显示背景图
- 角色比例: 完整保留源 GIF 的 407:700 = 0.582 纵横比，人物细高自然

## 删除项

- spiffs_image/hiyori_m05.gif (2.3MB) 已删除 - 被 m06/m07/m03 替代
  文件历史保留在 git，可通过 git show eb96130:spiffs_image/hiyori_m05.gif 恢复

## 默认表情切换

main/dzbj/ai_chat_ui.c:234:
- PoC: bg_gif_demo_start(..., "/spiflash/hiyori_m05.gif")
- Phase 3: bg_gif_demo_start(..., "/spiflash/hiyori_m06.gif")

## 烧录运行时验证

- 烧录后 0 次重启（连续监控 18 秒）
- BG_GIF: GIF 已加载到 PSRAM: /spiflash/hiyori_m06.gif (441.8 KB)
- AudioCodec: Audio codec started（首次冷启动直接成功）
- 用户目视确认显示效果良好

## GSD 文档（同时提交）

- .planning/milestones/digital_human_rtc/phases/phase_03_gif_resources/PLAN.md
- .planning/milestones/digital_human_rtc/phases/phase_03_gif_resources/GIF_REPORT.md

## SPIFFS 容量

新 SPIFFS 4.94MB 当前实际占用 ~2MB（40%），余量 ~2.94MB 充足。

2026-05-13 11:42:30 +08:00

Rdzleo

eb96130fc9

feat(Rtc_AIavatar): 数字人透明 GIF 显示方案 PoC 完成（背景图+透明GIF叠加）

源代码变更:
- main/dzbj/bg_gif_demo.c/h: 方案 C 最终实现 - JPG 背景图(lv_img) + 透明 GIF(lv_gif) 叠加
- main/dzbj/dual_gif_demo.c/h: 方案 B 中间产物 - 双 GIF 循环切换
- main/dzbj/sprite_demo.c/h: 方案 A 已弃用 - DMA 直写 GRAM 与 LVGL 争抢 LCD IO 失败
- main/dzbj/ai_chat_ui.c: 集成 USE_BG_GIF_POC 开关，加载背景图+透明 GIF
- main/dzbj/lcd.c: panel_handle 移除 static，便于其他模块访问
- main/CMakeLists.txt: 新增 3 个 dzbj 模块编译

资源新增:
- spiffs_image/Background_360x360.jpg: 设备背景图(20KB)
- spiffs_image/hiyori_m05.gif: Cubism Editor 直接导出的透明 GIF(2.3MB)
- docs/Rtc_AIavatar/: Live2D 模型(Hiyori/Haru) + 32 段 Haru GIF + 方案文档第18章 PoC 实战记录
- tools/sprite_poc/: Python GIF→RGB565 转换脚本

踩坑要点(详见 docs/Rtc_AIavatar 第18章):
- PIL Image.quantize() 会破坏 RGBA 透明度，必须改用 gifsicle
- PIL 保存动画 GIF 仅第1帧有透明，后续帧不透明 - LVGL gifdec 按帧读取
- Cubism Editor 直接导出 GIF 才能逐帧保留透明信息(FREE 版限制部分模型)
- gifsicle --lossy 会严重锯齿化，去掉只保留 --colors 256 + -O3 即可
- 裁剪居中需用全帧 bbox 不能只看第1帧(Live2D 角色每帧位置有偏移)
- LVGL 默认不支持 PNG，背景图用 JPG + esp_jpeg 解码到 RGB565 buffer
- 透明 GIF 显示黑色背景: gifdec.c canvas 初始化 alpha 须改为 0x00

2026-05-12 17:14:49 +08:00

3 Commits