但作为观察已经足够文字转WAV音频