或许是杜克的要求相对较松的关系文字转WAV音频