提出一种改进后的递增式语料抽选方法,通过在递增的每个抽选阶段对所获语料进\\行二次筛选,加强对语料中语音单元的平衡控制能力.该方法的实验佐证以10年《人民日报》等报刊杂志为待选语料,共约2000万个句子,包括8472个前后语境子音.从这批待选语料中抽选获得的语料仅包括17865个句子,但对出现次数超过10的前后语境子音的覆盖率却达到了94.3% ,语料中前后语境子音的分布方差为0.18×10~.该方法除了在音子单元的覆盖率和分布均匀化方面的优异性能外,还具有较低的计算代价和存储代价,适宜于从报刊杂志、互联网等海量的真实语料中抽选语音识别声学模型的语料.
评论