这其实是个复杂的平衡文字转WAV音频