后者的可能性在他看来几乎是没有的文字转WAV音频