另一个则是按照真人的身高建造文字转WAV音频