通过这个称呼就应该推断出何等松散文字转WAV音频