SkillHub

qwen-asr-skill

v1.3.0

高精度语音转文字,支持22种中文方言及30种语言,自动语言检测,CPU运行。

Sourced from ClawHub, Authored by Shuai YUAN

Installation

Please help me install the skill `qwen-asr-skill` from SkillHub official store. npx skills add yszheda/qwen-asr-skill

Qwen 方言语音识别 Skill - 极简版

基于通义千问 Qwen3-ASR-0.6B 模型的语音转文字服务,支持 22 种中文方言和 30 种语言识别。

功能特性

  • 🎤 支持 22 种中文方言识别
  • 🌐 支持 30 种国际语言
  • 💻 CPU 端运行,无需 GPU
  • 🔍 自动语言检测
  • ⚡ 低延迟,高准确率
  • 📦 极简版:仅包含 0.6B 模型,无强制对齐功能

🗣️ 支持的中文方言

安徽话、东北话、福建话、甘肃话、贵州话、河北话、河南话、湖北话、湖南话、江西话、宁夏话、山东话、陕西话、山西话、四川话、天津话、云南话、浙江话、粤语(香港口音)、粤语(广东口音)、吴语、闽南语。

🚀 快速开始

安装

# 克隆项目
git clone <repository-url>
cd qwen-asr-skill

# 安装依赖
npm install
pip install -r requirements.txt

# 启动服务
npm start

🔧 使用方式

安装并启用后,直接在 OpenClaw 中发送语音消息即可,系统会自动识别方言并转为文字。

📡 API 接口

POST /transcribe

音频转文字接口

请求参数: - audio:音频文件或 base64 编码的音频数据(必需) - language:指定语言/方言(可选,如:"四川话"、"粤语"等) - timestamps:是否返回时间戳(可选,默认 false)

响应示例:

{
  "success": true,
  "data": {
    "text": "识别结果文本",
    "language": "Sichuan",
    "confidence": 0.98,
    "duration": 1.23
  }
}

📊 性能指标

  • 推理速度:实时音频的 1.5-2 倍速(8 核 CPU)
  • 内存占用:6-8GB 运行时
  • 支持音频时长:最长 5 分钟
  • 方言识别 WER:<16%(平均)

🔍 极简版特点

与完整版相比,极简版(Minimal)的特点:

特性 极简版 完整版
模型大小 ~6GB ~6GB + ~2GB
强制对齐
时间戳
RAM 占用 6-8GB 6-10GB
适用场景 基础 ASR 需要时间戳的场景

🔒 隐私保护

  • 所有语音处理在本地完成
  • 模型权重在首次运行时自动从 Hugging Face 下载(约 6GB - 仅 0.6B 模型)
  • 处理完的音频文件会自动删除,不会存储
  • 不收集任何用户语音数据和识别内容

🤝 贡献

欢迎提交 Issue 和 Pull Request 来改进这个 Skill!

📄 许可证

Apache-2.0