他只能寻求更高层级的支持文字转WAV音频