中国科技纵横 中国科技纵横杂志社官方网站
热点文章
当前位置:首页 > 优秀文章

面向电力行业的语音语料库设计与构建

于安迎1 刘中涛1 项鸿雁2 高玉领2 卢凤3
(1.国网山东省电力公司枣庄供电公司,山东枣庄 277102;2.国网山东省电力公司,山东济南 250001;3.山东省电子政务大数据工程技术研究中心,山东济南 250014)

2021-11-01 16:04:00    来源:优秀文章

关键字:电力行业,语料库,语音标注,词库

为增强语音识别技术在不同行业的应用,需要针对不同行业建设相应的语料库。目前,中文语料库构建尚处于起始阶段,以THCHS-30语料库为代表的大众新闻语料初步投入应用。本文面向电力行业设计、构建电力行业语音语料,提出电力行业语料库设计规范并建立电力行业初级语料库,填补电力行业中文语料库的空白。本文分别实现语料音频录制和文本语料构成规范分析,完成包括发音、录制及存储等的录制和包括语料及词典的编制规范。采用音频标注技术,完成长音频切分以及短语料标注,实现文字和音素的两层级标注,建立电力音频标注规范。最后对语料库进行准确度测试,语料标注平均准确率为99.75%,满足语料库应用需求。

电话:010-59796075 信箱:chinakjzh2009@163.com

Copyright © 2008 All Rights Reserved

版权归中国科技纵横所有

《中国科技纵横》杂志社 京ICP备18024177号-1 ICP备