所以我只能推算出大概的位置文字转WAV音频