【阿里云复仇记5】声纹识别,一句话识别,本地实现

简介

今天的阿里云复仇记,我们来讲讲声纹识别。我车里的车机系统在登陆的时候有一种方式,声纹登陆。就是实现录入自己的声音,然后每次登陆的时候只要对着车机重复这句话 “你好,风神” ,就能识别出你是不是车的主人。

最近我仔细一琢磨,像东风风神这种国内四五线的车企,根本不可能自己开发 声纹系统。事出反常必有妖啊,我就去看了一下阿里云,果然,,,,阿里云这老小子还真有这个服务,只不过他改了个名字,叫一句话识别。阿里云老小子的价钱是3.5元/千次。虽然不贵啊,但是我们主打的就是,想尽一切办法,给阿里云这个老小子造成损失。

我自己也做了一个声纹对比,我们一起来看一下。

工具、代码 下载

链接:「【阿里云复仇记5】声纹识别,一句话识别」

视频教程

部署与安装

一、3D-Speaker 安装(语音对比)

# 安装
git clone https://github.com/modelscope/3D-Speaker.git && cd 3D-Speaker
pip install -r requirements.txt

# 测试
python speakerlab/bin/infer_sv.py  --model_id iic/speech_eres2net_sv_zh-cn_16k-common --wavs 语音1.wav 语音2.wav

二、Voicefixer 安装(语音去噪,人声增强)

pip install git+https://github.com/haoheliu/voicefixer.git
voicefixer --infile 将早前语音.wav --outfile 降噪后语音.wav

三、语音转码16000HZ

ffmpeg -i 转码前.wav -ar 16000 转码后.wav  

四、运行

# 1、运行哈利写的对比脚本
compare_voice.bat

# 2、输入第一段语音
# 3、输入第二段语音
# 4、输出相似度