只不过这都是理论上的推测文字转WAV音频