2020 - 2022
簡介
產學合作及系統建構經歷
即時語音合成系統與搭建
建立於中山大學智慧商務平台,使用 Conformer-Fastspeech2 作為合成器以及 Parallel WaveGAN 作為聲碼器來建立語音合成系統。同時為了縮短合成長句速度的問題,使用 Pipeline 的排程來對於生成的音檔進行合成,已達到更高的執行效率,以及縮短長句的合成時間。
即時語音辨識系統與搭建
建立於中山大學智慧商務平台,使用 Conformer-Transformer 架構作為聲學模型,由於目前語音辨識系統都是 real-time 的輸出文字,因此使用了 Contextual Block Processing 的方式來達到 Streaming 的目的,主要研發語碼轉換的語音辨識系統,目前在教學領域的課程可以達到 20%-25% 的字元錯誤率。