当初的时候他们利用了波士顿文字转WAV音频