介绍 :
随着语音识别技术的不断发展, 越来越多的智能设备通过语音识别等语音相关的技术实现人机交互的功能, 例如 音箱, 手机等设备, 通过这些设备, 人们可以更方便的通过语音来进行设备的相关操作
在现实生活中, 通常我们会遇到这样的场景, 就是我们需要进行语音识别的音频中, 包含了多个说话人的语音, 此时如果我们直接进行语音识别, 可能会将其他人员的语音也识别到结果当中, 影响了语音识别的准确率
所以这里我们需要使用”说话人分割与聚类”语音处理技术, 该技术通过将整个语音进行分割然后按语音片段声纹信息进行聚类, 从而实现单独分离出各个说话人的语音
说话人分割与聚类技术的历史背景 :
说话人分割与聚类技术流程 :
4. 接下来我们需要构造该音频的相似度矩阵, 该矩阵用于描述该音频各个片段之间的相似度, 我们使用该音频的 声纹向量矩阵的转置 * 声纹向量矩阵 得到音频的相似度矩阵, 该相似度矩阵中, 每个元素的值代表了该行的索引对应的音频片段声纹信息和该列的索引对应的音频片段声纹信息的相似度
5. 当我们得到相似度矩阵之后, 我们就可以利用相似度矩阵和层次聚类的方式, 来对各个音频片段进行聚类, 通过层次聚类, 我们可以将片段之间相似度符合设定阈值的两个片段聚为一类, 然后将同一个类别的音频片段组合成为一个音频, 从而实现将一个音频当中不同说话人的语音单独保存为一个音频
[图片来源:Fully supervised speaker diarization Aonan Zhang1,2 Quan Wang1 Zhenyao Zhu1 John Paisley2 Chong Wang1 ]
流程图:
说话人分割与聚类技术评估指标 :
在 “说话人分割与聚类” 任务中, 通常使用 Diarization Error Rate (DER) 来作为评估的指标
其中Reference Length : 是整条音频的总时长
False Alarm : 被系统误分到说话人A音频中, 但实际不属于说话人A的时长
Miss : 属于说话人A的时长, 但系统没有分到说话人A音频中
Overlap : 被系统分为说话人A和说话人B同时说话, 但实际没有同时说话的时长
Confusion : 被系统分为说话人A的, 但是实际属于说话人B的时长
说话人分割与聚类中遇到的问题:
2. 当音频片段中包含多个说话人同时说话时, 说话人分割与聚类很难将同时说话的语音分离开来
说话人分割与聚类技术的应用场景介绍 :
目前行业商业应用
为了解决该问题, 快商通公司实现了一种基于语音片段声纹信息的说话人分割与聚类技术, 可以将单通道的电话语音中客服和客户的语音单独分离开来进行处理
例如在使用快商通电话信道说话人分割与聚类技术得到客户语音音频之后, 我们可以将客户语音音频进行声纹识别, 然后对该客户的声纹信息保存到声纹数据库当中, 从而用于以后的客户身份信息校验

电话信道说话人分割与聚类发挥的作用?
电话信道说话人分割与聚类技术的最大作用,便是利用分割后的音频进行声纹库注册,以实现反欺诈、电话营销等功能。
在银行领域,客服会对逾期不还的订单进行电话提醒,从而产生大量的不还款语音数据,如果彼时该银行使用的是单通道通话,可以应用快商通电话信道说话人分割与聚类技术技术对失信者音频进行分割。分割后的音频,便成为黑声纹库建设中历史黑产数据的重要来源。银行可进一步以黑声纹库为基础,准确识别黑名单用户,从源头上降低坏账率,完善金融反欺诈链条。
在营销方面,使用快商通电话信道说话人分割与聚类技术技术,可以对客服外呼电话进行客户音频分割,将客户声音与会员标签、交易标签、营销标签等特征相匹配,统一由后台系统进行管理,实现高质量的电话营销。
技术日趋成熟、政策大力支持,声纹识别这种身份认证方式已逐渐被各领域所认可,但与此 同时,种种实际应用问题也浮出水面,声纹库建设的数据来源便是使用者们需要跨过的首个难关。
Kriston AI Lab从客户的需求出发,推出能够解决复杂场景下的说话人分割与聚类技术技术,为银行、保险、证券、市场调研、电商等行业呼叫中心提供了声纹库建设的可行性方案。未来,Kriston AI Lab将持续发挥国际领先的算法优势,完善声纹识别技术与产品的服务能力,推动产业链上下游共同发展。
参考文献 :
1. Fully supervised speaker diarization Aonan Zhang1,2 Quan Wang1 Zhenyao Zhu1 John Paisley2 Chong Wang1