他们最初的目标只有一个文字转WAV音频