他们和原际是认识文字转WAV音频