评论
分享

简析说话人分割与聚类

快商通AI

2021-07-29 18:06

38030 0 0

介绍 :

随着语音识别技术的不断发展, 越来越多的智能设备通过语音识别等语音相关的技术实现人机交互的功能, 例如 音箱, 手机等设备, 通过这些设备, 人们可以更方便的通过语音来进行设备的相关操作

在现实生活中, 通常我们会遇到这样的场景, 就是我们需要进行语音识别的音频中, 包含了多个说话人的语音, 此时如果我们直接进行语音识别, 可能会将其他人员的语音也识别到结果当中, 影响了语音识别的准确率

所以这里我们需要使用”说话人分割与聚类”语音处理技术, 该技术通过将整个语音进行分割然后按语音片段声纹信息进行聚类, 从而实现单独分离出各个说话人的语音

说话人分割与聚类技术的历史背景 :

“说话人分割与聚类”(Speaker Diarization) 技术解决的问题是 ”谁在什么时候说了话” , 在给定一个包含多个人交替说话的语音情况下, “说话人分割与聚类” 技术需要判断每句话的起始时间和结束时间, 并且得出这一句话是谁说的, 该问题是声纹领域仅次于”声纹识别” 的第二大课题, 难度远远大于 “声纹识别”

说话人分割与聚类技术流程 :

1. 首先, 对于一整段待分离的语音音频, 我们需要先对该音频进行定长切分, 例如我们将窗口长度设置为1.0s, 然后将整段语音音频按每1.0s为一个片段进行切分, 其中, 两个相邻片段之间的重叠时长为0.5s

2. 然后接下来我们要使用预训练好的声纹识别模型, 将声纹识别模型中的声纹特征提取模块单独取出, 然后将步骤一中切分好的所有音频片段依次放入声纹提取模块进行处理, 通过声纹提取模块, 提取出各个音频片段的D-Vector声纹向量信息

3. 接下来我们需要将各个片段的D-Vector声纹向量进行拼接, 拼接为一个矩阵, 矩阵的横坐标为时间维度, 单位为一个窗口的大小, 纵坐标为声纹向量的维度, 拼接后的矩阵我们称为该音频的声纹向量矩阵

4. 接下来我们需要构造该音频的相似度矩阵, 该矩阵用于描述该音频各个片段之间的相似度, 我们使用该音频的 声纹向量矩阵的转置 * 声纹向量矩阵 得到音频的相似度矩阵, 该相似度矩阵中, 每个元素的值代表了该行的索引对应的音频片段声纹信息和该列的索引对应的音频片段声纹信息的相似度

5. 当我们得到相似度矩阵之后, 我们就可以利用相似度矩阵和层次聚类的方式, 来对各个音频片段进行聚类, 通过层次聚类, 我们可以将片段之间相似度符合设定阈值的两个片段聚为一类, 然后将同一个类别的音频片段组合成为一个音频, 从而实现将一个音频当中不同说话人的语音单独保存为一个音频

[图片来源:Fully supervised speaker diarization Aonan Zhang1,2 Quan Wang1 Zhenyao Zhu1 John Paisley2 Chong Wang1 ]

流程图:

说话人分割与聚类技术评估指标 :

在 “说话人分割与聚类” 任务中, 通常使用 Diarization Error Rate (DER) 来作为评估的指标

 

该图为DER指标的计算公式

其中Reference Length : 是整条音频的总时长

False Alarm : 被系统误分到说话人A音频中, 但实际不属于说话人A的时长

Miss : 属于说话人A的时长, 但系统没有分到说话人A音频中

Overlap : 被系统分为说话人A和说话人B同时说话, 但实际没有同时说话的时长

Confusion : 被系统分为说话人A的, 但是实际属于说话人B的时长

说话人分割与聚类中遇到的问题:

1. 音频切分片段时长不好确定, 如果设置片段时长过长, 可能导致片段中包含多个说话人的语音, 导致片段只分到其中一个说话人, 如果设置片段时长过短, 可能导致片段中包含的说话人声纹信息不足, 无法判断该片段属于哪个说话人

2. 当音频片段中包含多个说话人同时说话时, 说话人分割与聚类很难将同时说话的语音分离开来

说话人分割与聚类技术的应用场景介绍 :

呼叫客服中心电话信道 : 在呼叫客服中心的通话音频中, 通常同时包含有客户的语音和客服的语音, 当我们需要对客户和客服的说话内容进行语音识别时, 我们就需要将客户和客服的语音分离开来, 然后分别单独进行语音识别

会议内容纪要 : 在会议完成后, 我们通常会希望将会议中的语音内容保存下来, 并识别成文字, 然后保存为会议纪要的形式, 但是通常一段音频当中会包含多个说话人的语音, 此时如果我们直接将整段语音进行识别, 就无法分出各段内容来自哪个说话人, 此时我们将需要通过说话人分割与聚类技术技术将一段会议的录音中各个说话人的语音分离出来, 然后单独进行语音识别, 从而形成有效的会议纪要

智能音箱 : 在家庭环境中使用智能音箱时, 常常周围会同时有其他人在讲话, 这时如果音箱直接对当前语音进行语音识别, 会导致识别的结果当中混杂了其他说话人的语音内容, 导致识别的错误, 此时我们就需要通过说话人分割与聚类技术的技术将语音中主要说话人的语音分离出来, 然后单独进行语音识别, 从而避免语音识别的内容被周围语音干扰

目前行业商业应用

1. 呼叫客服中心电话信道 :

在金融, 保险, 电商等领域, 由于需要经常与客户进行电话沟通, 进行电话回访, 所以在这些公司的呼叫客服中心中, 每天会产生大量的电话通话语音音频, 而由于受到技术问题的限制, 呼叫中心保存下来的电话音频通常为单声道音频, 也就是说, 客服和客户的语音保存在同一个声道当中, 导致的问题就是如果我们要对音频中客户的语音进行单独分析, 则必然会受到客服的语音干扰

为了解决该问题, 快商通公司实现了一种基于语音片段声纹信息的说话人分割与聚类技术, 可以将单通道的电话语音中客服和客户的语音单独分离开来进行处理

例如在使用快商通电话信道说话人分割与聚类技术得到客户语音音频之后, 我们可以将客户语音音频进行声纹识别, 然后对该客户的声纹信息保存到声纹数据库当中, 从而用于以后的客户身份信息校验

电话信道说话人分割与聚类发挥的作用?

电话信道说话人分割与聚类技术的最大作用,便是利用分割后的音频进行声纹库注册,以实现反欺诈、电话营销等功能。

在银行领域,客服会对逾期不还的订单进行电话提醒,从而产生大量的不还款语音数据,如果彼时该银行使用的是单通道通话,可以应用快商通电话信道说话人分割与聚类技术技术对失信者音频进行分割。分割后的音频,便成为黑声纹库建设中历史黑产数据的重要来源。银行可进一步以黑声纹库为基础,准确识别黑名单用户,从源头上降低坏账率,完善金融反欺诈链条。

在营销方面,使用快商通电话信道说话人分割与聚类技术技术,可以对客服外呼电话进行客户音频分割,将客户声音与会员标签、交易标签、营销标签等特征相匹配,统一由后台系统进行管理,实现高质量的电话营销。

技术日趋成熟、政策大力支持,声纹识别这种身份认证方式已逐渐被各领域所认可,但与此 同时,种种实际应用问题也浮出水面,声纹库建设的数据来源便是使用者们需要跨过的首个难关。

Kriston AI Lab从客户的需求出发,推出能够解决复杂场景下的说话人分割与聚类技术技术,为银行、保险、证券、市场调研、电商等行业呼叫中心提供了声纹库建设的可行性方案。未来,Kriston AI Lab将持续发挥国际领先的算法优势,完善声纹识别技术与产品的服务能力,推动产业链上下游共同发展。

参考文献 :

1. Fully supervised speaker diarization Aonan Zhang1,2 Quan Wang1 Zhenyao Zhu1 John Paisley2 Chong Wang1


本文为凯迪网自媒体“凯迪号”作者上传发布,代表其个人观点与立场,凯迪网仅提供信息发布与储存服务。文章内容之真实性、准确性由用户自行辨别,凯迪网有权利对涉嫌违反相关法律、法规内容进行相应处置。
举报
投喂支持
点赞
发表评论
请先 注册 / 登录后参与评论
推荐阅读