语音识别原理
首先,我们知道声音实际上是一种波常见的mp3、wmv等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如WindowsPCM文件,也就是俗称的wav文件wav文件里存储的除了文件头以外,就是声音波形的个点了
在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧分帧操作一般不是简单的切开,而是使用移动窗函数来实现,这里不详述帧与帧之间一般是有交叠的
每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠我们称为以帧长25ms、帧移10ms分帧每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠我们称为以帧长25ms、帧移10ms分帧
分帧后,语音就变成了很多小段但波形在时域上几乎没有描述能力,因此必须将波形作变换常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息这个过程叫做声学特征提取实际应用中,这一步有很多细节,声学特征也不止有MFCC这一种,具体这里不讲
至此,声音就成了12行(假设声学特征是12维)、N列的矩阵,称之为观察序列,这里N为总帧数观察序列如下图所示,图中,每一帧都用12维的向量表示,色块的颜色深浅表示向量值的大小
接下来就要介绍怎样把这个矩阵变成文本了首先要介绍两个概念:音素:单词的发音由音素构成对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集,参见TheCMUPronouncingDictionary汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调,不详述状态:这里理解成比音素更细致的语音单位就行啦通常把音素划分成3个状态
语音识别是怎么工作的呢实际上一点都不神秘,无非是:第一步,把帧识别成状态(难点);第二步,把状态组合成音素;第三步,把音素组合成单词
免责声明:本文由用户上传,与本网站立场无关。财经信息仅供读者参考,并不构成投资建议。投资者据此操作,风险自担。 如有侵权请联系删除!
-
“倾城一笑百眉生”是一句形容女性美貌的诗句,其中暗含了生肖解谜的趣味。要通过这句话推导出对应的生肖动物...浏览全文>>
-
“喂饭”与生肖的关联可以通过谐音或象征意义来解读。在中国传统文化中,“喂饭”可以联想到“犬”这个生肖,...浏览全文>>
-
“一人之下,万人之上,将军威权千里雄”这句诗描述了一种威严与权力的象征,结合生肖文化,最贴合的生肖是龙...浏览全文>>
-
这个谜语“月圆入圆家团圆,一六连结来相帮”描述了一个温馨和谐的画面,结合生肖的特点,答案是狗。诗意解读...浏览全文>>
-
“不知所措,心乱如麻。始信劲草胜娇花”这句描述中,“劲草”和“娇花”都具有象征意义。“劲草”坚韧不拔,...浏览全文>>
-
“假情假意”并不是直接与生肖相关联的成语,但它可以被用来形容某些生肖的性格特点或行为表现。以下从诗意的...浏览全文>>
-
按劳分配是中国社会主义初级阶段个人收入分配的基本原则之一,强调根据劳动者提供的劳动数量和质量来决定其所...浏览全文>>
-
“按劳分配”出自社会主义分配原则,意指根据个人付出的劳动量来决定所得报酬。结合生肖数字,“按劳分配”可...浏览全文>>
-
“海阔天空”是一个充满自由与广阔意境的成语,它象征着无拘无束、胸怀宽广的精神状态。结合生肖文化,这一成...浏览全文>>
-
“放虎归山”是一则成语,意思是将老虎放回山林,比喻把坏人或敌人放回去,可能会造成更大的危害。而将其作为...浏览全文>>
- 放虎归山打一动物生肖说的是什么动物,经典解答落实
- 望天而啼,天地清明。九微片片飞花开打一个生肖数字,第一解析落实
- 亡羊补牢打一生肖数字数字,已答解释落实
- 力壓羣雄,谁敢张狂?群雌粥粥尽仰望是什么生肖打一生肖动物精选解释解析落
- 试驾雷克萨斯LX,从预约到试驾的完美旅程
- 奥迪SQ5 Sportback预约试驾,线上+线下操作指南
- 试驾五菱凯捷有哪些途径
- MINI试驾,线上+线下操作指南
- 蒙迪欧试驾预约,4S店体验全攻略
- 大运悦虎试驾预约怎么预约
- AION S试驾,如何在4S店快速预约?
- 广汽传祺传祺向往M8试驾的流程是什么
- 长安欧尚520试驾预约操作指南
- 踏青归来马蹄香,一八追忆二难忘代表什么生肖,精准快答揭晓落实
- 半壁江山打一个正确的生肖,作答解释落实
- 屈指可数指什么生肖,科学答案落实
- 名冠古今世间稀打一个生肖,刚刚全面解释落实
- 未曾得向行人道打一个生肖打一种生肖,完美释义落实
- 阳春白雪打一个生肖,第一析释落实
- 灵蛇鼠洞一湖天是什么生肖打一动物精选最佳资料落实