两者都用得着文字转WAV音频