也只能认出其中数十样物品文字转WAV音频