同时注意着周遭人的谈话细节文字转WAV音频