也的确只是相对文字转WAV音频