之前不过是口头约定文字转WAV音频