应该说您听中的声音是音频里的文字转WAV音频