只能按照大概的概率和经验推测文字转WAV音频