虽然他也隐隐猜测到文字转WAV音频