这会大大削弱自己说话的分量文字转WAV音频