所得出的结论和沙加是一样的文字转WAV音频