这个方案永远只能是一个模拟文字转WAV音频