完全是靠着拳脚来分出高下文字转WAV音频