只不过它捕捉的文字转WAV音频