整个过程只有他自己一个人操纵文字转WAV音频