所以他干脆一口气解释清楚文字转WAV音频