Rafael Martins Feitosa, Dante A. C. Barone, André G. Adami.
Um Corpus de Fala é necessário para modelagem acústica dos Sistemas de Reconhecimento de Fala. Entretanto a escassez deste tipo de corpus para o Português Brasileiro já é um problema descrito em vários trabalhos. Este artigo descreve, a partir de um levantamento bibliográfico, uma via alternativa, consistindo na utilização do áudio e Closed Caption dos programas transmitidos pelo Sistema Brasileiro de TV Digital (SBTVD) como fonte em potencial para coleta de corpus falado.
http://www.lbd.dcc.ufmg.br/colecoes/stil/2011/0028.pdf
Caso o link acima esteja inválido, faça uma busca pelo texto completo na Web: Buscar na Web