而是要根据这个人有多少钱再去要文字转WAV音频