只是根据种种现象而做出的推测文字转WAV音频