我们应该用读书人的身份去衡量文字转WAV音频