大体算得上是平坦文字转WAV音频