能够更好更精确的把握到四周的一切文字转WAV音频