声纹识别 | 快速概览 + 详细了解N:N聚类算法是如何应用的

访客3年前黑客文章556

编辑导语:如今的识别成果越来越强大,好比:指纹识别、人脸识别、虹膜识别、声纹识别等等,声纹识别多用于金融行业和刑侦场景,举办声音匹配;本文作者具体先容和阐明白声纹识别中N:N聚类算法是如何应用的,我们一起来看一下。

声纹识别 | 快速概览 + 具体相识N:N聚类算法是如何应用的

笔者前段时间有幸相识到声纹的观念:声纹识别,作为生物识别技能的一种,跟脸象、指纹、虹膜等一样,是每小我私家唯一无二的特征;在金融行业、刑侦场景应用中,对付措辞人身份的辨别认证,应用颇多。

作为产物成果设计,一般有三个种别,别离是1:1(措辞人确认)、1:N(措辞人辨认)、N:N(在声纹1:N的基本上,举办大局限、自动化和高效的声纹匹配,雷同声海中找特定声音,可能找相似声音)。

本文从声纹识此外根基观念入手,科普常识;同时分享笔者思考的声纹识此外N:N聚类算法的流程与应用场景,但愿可以和各人多多交换。

本文将从如下方面为你一一解读:

什么是声纹?

声纹识此外道理。

声纹识此外三个应用大类:1:1、1:N、N:N。

N:N聚类阐明的技能道理与应用流程、应用场景。

声纹识此外几类进攻。

一、什么是声纹?

声纹(Voiceprint),是用电声学仪器显示的携带言语信息的声波频谱,是由波长、频率以及强度等百余种特征维度构成的生物特征,具有不变性、可丈量性、独一性等特点。

人类语言的发生是人体语言中枢与发音器官之间一个巨大的生理物理进程,发声器官——舌、牙齿、喉头、肺、鼻腔在尺寸和形态方面每小我私家的差别很大,所以任何两小我私家的声纹图谱都有差别。

每小我私家的语音声学特征既有相对不变性,又有变异性,不是一成稳定的;这种变异可来自生理、病理、心理、模仿、伪装,也与情况滋扰有关;尽量如此,由于每小我私家的发音器官都不尽沟通,因此在一般环境下,人们仍能区别差异的人的声音或判定是否是同一人的声音。

二、声纹识此外道理

想要通过声音识别某小我私家,可能从声海中辨认出谁是谁,有两个焦点的问题:就是特征提取和模式匹配了。

数据收集阶段,提取并提取并选择对措辞人的声纹具有可分性强、不变性高档特性的声学或语言特征;之后选择符合的模子(详细各人可以自行搜索,这里不多赘述)在举办声音识别。

三、声纹识此外三个应用大类:1:1、1:N、N:N 1. 措辞人确认 1:1

1:1 措辞人确认是确认措辞人身份的要领,针对“对付同样的文本内容,有两段灌音,这两段灌音到底是不是出自一人之口”这样的问题,也就是“两句话到底是不是一小我私家说“的问题。

该类场景相对简朴,主要应用于用户的注册和验证,以及APP内的声纹核身。

2. 措辞人确认 1:N

1:N 措辞人辨认是辨认措辞人身份的要领,针对“对付一段语音,需要迅速在样本库中举办搜寻比对,以确认这段语音与样本库中哪段语音相似度更高”,也就是说“给定的一段语音属于样本库中谁说的”的问题。

该类场景较量常见,主要应用于黑名单用户进线检测、提高安防本领等。

3. 措辞人聚类 N:N

在声纹 1:N 的基本上,举办大局限、自动化和高效的声纹匹配。

举个例子,假如吉尼斯进行一个角逐,5万小我私家都录制一段文字内容沟通的语音;作为吉尼斯的审核方,假如想要快速辨别这5万个数据有没有造假、可能反复(好比将一段语音复制无数次,冒凑数据);那么雇佣业务员一条一条语音听,是有点不科学的,语音听多了也会杂乱,并且很低效。

那么有什么好的步伐呢?那就是N:N措辞人聚类,下文会具体先容如何办理此类问题。

四、N:N聚类阐明的技能道理与应用流程,应用场景

对付千亿级此外无标签灌音文件,如何做有效的处理惩罚?

举个例子,如果说你有许多的语音片断(语音的文本内容是沟通的),这些语音片断别离归属于甲乙丙丁等人;仅凭人耳辨识是无法判别出哪些语音片断属于甲,哪些语音片断属于乙。

通过N:N聚类的算法,举办声纹的相似度检测,将属于同一小我私家措辞的语音片断不绝举办归并归类;最后属于甲措辞的语音片断全部被归为一类,属于乙措辞的语音片断全部被归为一类;以此类推,类内语音的相似度极高,类间语音的相似度较低,到达将这些语音片断分人整理的目标。

简朴先容一下聚类阐明:聚类阐明是按照在数据中发明的描写工具及其干系的信息,将数据工具分组。

相关文章

产品经理如何制定自己的求职计划

产品经理如何制定自己的求职计划

编辑导语:产物司理是一个进口货,因此今朝并没有详细的专业可以或许对口产物司理岗亭。于是,产物司理可以是来自各行各业的、各类专业的人。固然看似大门为各人敞开,可是实际上成为一名产物司理并没有这么简朴,这...

关于waterfall,不要不懂装懂

关于waterfall,不要不懂装懂

什么是waterfall?要领略waterfall,我们需要回归问题的本质,没有步伐在不领略本质的前提下领略一个生疏的术语。 什么是waterfall waterfall,中文翻译为瀑布流,也叫做菊...

从房屋建筑视角出发,带你轻松入门产品系统结构

从房屋建筑视角出发,带你轻松入门产品系统结构

编辑导语:产物司理是企业中专门认真产物打点的地位,从外貌到内部布局都要举办相识和把握;本文作者将系统比拟到我们日常居住的衡宇修建,从衡宇布局的角度来领略系统观念,我们一起来进修一下。 刚入门产物司理...

“互联网+农批”之进销存SaaS创业的欢与悲

“互联网+农批”之进销存SaaS创业的欢与悲

编辑导语:跟着互联网的成长,如今各行业都在融入互联网,“互联网+农批”也在不绝尽力中;固然这两者正在团结,可是由于农批自己的原因,导致进步慢,利用率低;本文作者对此举办了具体的阐明,我们一起来看一下。...

毕业季营销怎么做?复盘2020年经典案例,我总结出如下四点

毕业季营销怎么做?复盘2020年经典案例,我总结出如下四点

编辑导语:结业季营销是每年的营销热点,往往会有不少的乐成营销的履历值得我们去进修。本文作者复盘了2020年结业季的乐成营销案例,看看这些案例乐成的要害到底是什么?又有哪些处所值得我们去进修。 又是一...

商业化体验策略模型CXS:全视角体验设计的思维结构

商业化体验策略模型CXS:全视角体验设计的思维结构

导读:本文作者依据事情中项目实践的所思所想,分享了关于贸易化体验设计的相关常识,并把它提炼成了一个模子——CXS,作者团结案例对这个模子展开了梳理说明,供各人一同参考和进修。 聚焦贸易化体验设计的实...