他们完全是按照商定的来的文字转WAV音频