Qwen 方言语音识别 Skill - 极简版

基于通义千问 Qwen3-ASR-0.6B 模型的语音转文字服务，支持 22 种中文方言和 30 种语言识别。

功能特性

安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语（香港口音）、粤语（广东口音）、吴语、闽南语。

# 克隆项目
git clone <repository-url>
cd qwen-asr-skill

# 安装依赖
npm install
pip install -r requirements.txt

# 启动服务
npm start

安装并启用后，直接在 OpenClaw 中发送语音消息即可，系统会自动识别方言并转为文字。

音频转文字接口

请求参数： - audio：音频文件或 base64 编码的音频数据（必需） - language：指定语言/方言（可选，如："四川话"、"粤语"等） - timestamps：是否返回时间戳（可选，默认 false）

响应示例：

{
  "success": true,
  "data": {
    "text": "识别结果文本",
    "language": "Sichuan",
    "confidence": 0.98,
    "duration": 1.23
  }
}

与完整版相比，极简版（Minimal）的特点：

欢迎提交 Issue 和 Pull Request 来改进这个 Skill！

Apache-2.0