此时自然不会纠结于谁先走谁后走文字转WAV音频