他们一定会先设法稳定后方文字转WAV音频