他们不会去考虑时代不同文字转WAV音频