
上QQ阅读APP看书,第一时间看更新
8.结语
该工具采用Perl脚本语言编写,主要面向较大规模的、有文字底稿的语音语料库建设,旨在解决音段标注的效率和一致性问题。该工具通过调用HTK工具,基于用户所提供的语料及相关资源训练生成HMM声学模型,然后进行音段强制对齐,最后针对每个声音文件转写生成相应的语音标注文件(*.TextGrid),包括词语层、音节层和音素层等标注内容。由于该工具自身不提供任何声学模型和词典,而是基于用户所提供的声音文件、带有分词信息的发音文本文件和发音词典文件等数据资源自动训练生成相应的语音声学模型,然后再利用所生成的语音声学模型去完成音段对齐和标注任务,因此这一工具可适用于任意语言和方言的语音库建设。
通过训练声学模型,完成音段的自动切分与标注,这无疑能够在一定程度上促进语音语料库的建设进度,减少人力和物力的投入。但是,要建设一个较高质量的语音语料库,后期的手工校准工作仍然是必不可少的。
熊子瑜 中国社会科学院语言研究所,博士,研究员,主要研究领域为实验语音学。
E-mail:xiongziyu@163.com