因为是转修而不是从零开始文字转WAV音频