两者应该是相互依赖文字转WAV音频