在 Open WebUI 中配置语音交互

通过将 Open WebUI 连接到 Speaches 应用，你可以启用免手动输入的语音交流。该集成提供语音转文字（STT）用于听写提示词，也提供文字转语音（TTS）用于朗读 AI 回复。

学习目标

在本指南中，你将学习如何：

开始前，请确保已满足以下条件：

要连接 Open WebUI 和 Speaches，你需要获取 Speaches 共享端点 URL，并确认 Speaches 中使用的 STT 和 TTS 模型名称。

打开 Olares 设置，然后前往应用 > Speaches。
在共享入口中，点击 Speaches API，并记录端点 URL。
例如：http://edd26bab0.shared.olares.com。

从启动台打开 Speaches。
前往 Speech-to-Text 标签页，点击 Model 下拉列表，并记录默认 STT 模型名称 Systran/faster-whisper-small。
前往 Text-to-Speech 标签页，点击 Model 下拉列表，选择默认 TTS 模型 speaches-ai/Kokoro-82M-v1.0-ONNX，然后记录模型名称。
从 Voice 下拉列表中，为 AI 朗读回复选择一个语音，并记录语音名称。例如：am_eric。

在 Open WebUI 中，点击你的头像图标，然后前往 Admin Panel > Settings > Audio。
在 Speech-to-Text 区域中，指定以下设置：
- Speech-to-Text Engine：选择 OpenAI。
- API Base URL：输入 Speaches 共享端点 URL，并在末尾追加 /v1。例如：http://edd26bab0.shared.olares.com/v1。
- API Key：输入任意文本。不要留空。
- STT Model：输入你之前记录的 STT 模型名称，即 Systran/faster-whisper-small。
在 Text-to-Speech 区域中，指定以下设置：
- Text-to-Speech Engine：选择 OpenAI。
- API Base URL：输入 Speaches 共享端点 URL，并在末尾追加 /v1。例如：http://edd26bab0.shared.olares.com/v1。
- API Key：输入任意文本。不要留空。
- TTS Voice：输入你之前记录的语音名称。例如：am_eric。
- TTS Model：输入你之前记录的 TTS 模型名称，即 speaches-ai/Kokoro-82M-v1.0-ONNX。
点击 Save。

分别测试各项音频功能，确保集成正常工作。

在新标签页中运行 Open WebUI 以使用音频

现代浏览器会阻止在 Olares 桌面窗口内运行的应用访问麦克风。为避免收到 "Permission denied" 错误，请选择 Open WebUI 窗口右上角的 open_in_new，在新的浏览器标签页中打开应用。请在该新标签页中完成以下测试。

资源占用

使用音频功能会同时调用 LLM、STT 和 TTS 模型。确保设备有足够的 VRAM 和内存，以便三个模型顺利加载和切换。如果资源不足，Olares 可能会为保护系统而停止应用，导致短暂不可用。

在生产环境中，建议将 GPU 模式设置为显存切片，以避免模型之间争抢资源。

非英语语音

默认 STT 和 TTS 模型对非英语语言的效果可能不佳。如有需要，你可以在 Speaches Playground 中切换到其他模型。关于更换模型的说明，可参阅在 Speaches 中管理模型。