Go to file

Rdzleo b1577d8418 fix: 软 RTC 退出待命音三连修 + 尾音延迟

问题与修复（按发现顺序）:

【问题1】AudioLoop guard 冻结 OnAudioOutput → 待命音队列永远不被消费
- 现象: WaitForAudioPlayback 3秒超时, 无声
- 根因: EnterIdleHibernate Step 0 设 hibernating_=true, AudioLoop 顶层
  if(hibernating_) continue 会同时跳过 OnAudioInput + OnAudioOutput,
  PlaySound 入队的 Opus 永远不解码。
- 修复: guard 下沉到 OnAudioInput 入口（仅 input 侧关 codec 有 bad_alloc 风险）,
  OnAudioOutput 自带 codec->output_enabled() 保护。

【问题2】volc_rtc_stop 副作用关 I2S 通道 → codec 状态错位
- 现象: 听到杂音而非待命音; i2s_channel_disable "not enabled yet" 错误
- 根因: 火山 RTC SDK 的 stop 内部关闭 ES8311 I2S, 但 codec class 内部
  output_enabled_ 标志仍是 true → 状态错位, PlaySound 写入到 disabled 的 I2S。
- 修复: EnterIdleHibernate 在 PlaySound 前显式 EnableOutput(false→true)
  强制重新激活 I2S, 并灌 200ms silence 覆盖 DMA 残留。

【问题3 - 真因】protocol downlink_is_pcm_ 标志位污染 → Opus 被当 PCM 字节流写出
- 现象: 杂音仍在
- 根因: 火山 RTC 下行音频是 PCM, DataCallback 设 downlink_is_pcm_=true。
  LeaveRoom 没重置这个 flag, 后续 hibernate 中 PlaySound 入队的 Opus 包,
  OnAudioOutput 读到 protocol_->downlink_is_pcm() 返回 true →
  treat_as_pcm=true → 跳过 opus_decoder, 直接把 Opus 编码字节当 int16
  PCM 样本写到 codec → 杂音。
- 修复: VolcRtcProtocol::LeaveRoom 末尾重置 downlink_is_pcm_=false +
  first_downlink_logged_=false。唤醒重连后 DataCallback 收到首包会立即
  重新设置该 flag, 不影响欢迎语 PCM 播放。

【问题4】WaitForAudioPlayback 完成 ≠ DMA 输出完成 → 尾音被截
- 现象: 待命音能听见但提前结束约 1 秒
- 根因: WaitForAudioPlayback 只判断 audio_decode_queue_ 出队完毕。
  OnAudioOutput 是 background_task Schedule 异步执行 codec write,
  队列空 ≠ codec 写完; codec.Write 返回 ≠ I2S DMA + ES8311 FIFO 输出完毕。
- 修复: WaitForAudioPlayback 之后追加 background_task->WaitForCompletion +
  vTaskDelay(1000) 让 DMA 尾音自然衰减, 才关 player_pipeline。

Co-Authored-By: Claude Opus 4.7 (1M context) <noreply@anthropic.com>

2026-05-15 18:29:09 +08:00

audios_new_p3

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

audios_p3

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

docs

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

dzbj @ 58fb9aab86

1、注释了BLE JSON Service 相关实现代码，因为当前蓝牙通讯仍然使用二进制方式进行通讯，只是替换了之前官方的BluFi方式

2026-02-12 16:53:30 +08:00

esp-spot

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

main

fix: 软 RTC 退出待命音三连修 + 尾音延迟

2026-05-15 18:29:09 +08:00

scripts

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

tests

1、Wi-Fi发送列表过滤了5G频段并且只发送最强信号的2.4G频段Wi-Fi；

2026-02-10 18:28:35 +08:00

.gitignore

1、新增Function Calling的讲故事功能，可以语音获取小故事

2026-03-02 14:48:42 +08:00

00Kapi_Rtc_火山RTC整合移植方案.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

01Kapi_Rtc_WebSocket_替换为_火山RTC_技术分析报告.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

02Kapi_Rtc_火山RTC替换实现方案.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

03AEC_VOICE_INTERRUPT_PORTING_PLAN.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

04-2025-11-21音频优化记录.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

05-最新日志.txt

设备注册RTC服务时，设备名称从Wi-Fi的MAC地址改为使用蓝牙的MAC地址

2026-03-05 13:31:59 +08:00

05Kapi_项目业务全貌与重构决策分析.md

docs: 决策分析报告 v1.1-v1.2 — Kapi 流畅根因 + 综合优化方案评估

2026-05-14 16:51:36 +08:00

AEC_VAD_OPTIMIZATION.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

audios_new_p3.zip

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

BLE_JSON_通讯模块开发计划.md

fix blue server

2026-02-10 10:54:42 +08:00

BluFi蓝牙配网小程序开发需求说明书.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

BOOT_BUTTON_IMPLEMENTATION_COMPARISON.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

BOOT_BUTTON_LISTENING_STATE_IMPLEMENTATION_TEST.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

BOOT_BUTTON_MODIFICATION_SUMMARY.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

BOOT_BUTTON_NEW_IMPLEMENTATION_TEST.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

build.log

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

CMakeLists.txt

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

idf_component.yml

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

ip_query_test.py

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

LICENSE

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

partitions_4M.csv

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

partitions_8M.csv

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

partitions_32M_sensecap.csv

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

partitions.csv

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

play_music.py

1、新增讲故事和播放音乐的function call配置文件（原小智项目）

2026-03-05 17:17:42 +08:00

play_story.py

1、新增讲故事和播放音乐的function call配置文件（原小智项目）

2026-03-05 17:17:42 +08:00

QMI8658A_IMU_Sensor_Development_Guide.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

QMI8658A驱动适配方案_B站驱动.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

QMI8658替换方案_Github驱动.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

README_en.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

README_ja.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

README_RTC.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

README.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

sdkconfig.bak

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

sdkconfig.custom_wake_word

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

sdkconfig.defaults

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

sdkconfig.defaults.esp32c3

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

sdkconfig.defaults.esp32s3

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

sdkconfig.defaults.prod生产环境

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

URGENT_INTERRUPT_FIX.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

VOICE_INTERRUPT_FEATURE.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

VOICE_INTERRUPT_OPTIMIZATION_GUIDE.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

volc_device_manager.o

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

和风天气运行日志.txt

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

自定义唤醒词移植说明.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

自定义唤醒词配置使用手册.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

蓝牙配网功能实现总结.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

蓝牙配网集成指南.md

Kapi_RTC版本初始化

2026-01-20 16:55:17 +08:00

README_en.md

XiaoZhi AI Chatbot

(中文 | English | 日本語)

Introduction

👉 Build your AI chat companion with ESP32+SenseVoice+Qwen72B!【bilibili】

👉 Equipping XiaoZhi with DeepSeek's smart brain【bilibili】

👉 Build your own AI companion, a beginner's guide【bilibili】

Project Purpose

This is an open-source project released under the MIT license, allowing anyone to use it freely, including for commercial purposes.

Through this project, we aim to help more people get started with AI hardware development and understand how to implement rapidly evolving large language models in actual hardware devices. Whether you're a student interested in AI or a developer exploring new technologies, this project offers valuable learning experiences.

Everyone is welcome to participate in the project's development and improvement. If you have any ideas or suggestions, please feel free to raise an Issue or join the chat group.

Learning & Discussion QQ Group: 376893254

Implemented Features

Wi-Fi / ML307 Cat.1 4G
BOOT button wake-up and interruption, supporting both click and long-press triggers
Offline voice wake-up ESP-SR
Streaming voice dialogue (WebSocket or UDP protocol)
Support for 5 languages: Mandarin, Cantonese, English, Japanese, Korean SenseVoice
Voice print recognition to identify who's calling AI's name 3D Speaker
Large model TTS (Volcano Engine or CosyVoice)
Large Language Models (Qwen, DeepSeek, Doubao)
Configurable prompts and voice tones (custom characters)
Short-term memory, self-summarizing after each conversation round
OLED / LCD display showing signal strength or conversation content
Support for LCD image expressions
Multi-language support (Chinese, English)

Hardware Section

Breadboard DIY Practice

See the Feishu document tutorial:

👉 XiaoZhi AI Chatbot Encyclopedia

Breadboard demonstration:

Supported Open Source Hardware

Firmware Section

Flashing Without Development Environment

For beginners, it's recommended to first use the firmware that can be flashed without setting up a development environment.

The firmware connects to the official xiaozhi.me server by default. Currently, personal users can register an account to use the Qwen real-time model for free.

👉 Flash Firmware Guide (No IDF Environment)

Development Environment

Cursor or VSCode
Install ESP-IDF plugin, select SDK version 5.3 or above
Linux is preferred over Windows for faster compilation and fewer driver issues
Use Google C++ code style, ensure compliance when submitting code

Developer Documentation

Board Customization Guide - Learn how to create custom board adaptations for XiaoZhi
IoT Control Module - Understand how to control IoT devices through AI voice commands

AI Agent Configuration

If you already have a XiaoZhi AI chatbot device, you can configure it through the xiaozhi.me console.

👉 Backend Operation Tutorial (Old Interface)

Technical Principles and Private Deployment

👉 Detailed WebSocket Communication Protocol Documentation

For server deployment on personal computers, refer to another MIT-licensed project xiaozhi-esp32-server

README_en.md

XiaoZhi AI Chatbot

Introduction

Project Purpose

Implemented Features

Hardware Section

Breadboard DIY Practice

Supported Open Source Hardware

Firmware Section

Flashing Without Development Environment

Development Environment

Developer Documentation

AI Agent Configuration

Technical Principles and Private Deployment

Star History