勉强能看清并且尽可能地瞄准了文字转WAV音频