但更多的是从宏观层面上进行描述文字转WAV音频