这个方案的细节基本上是他在操盘文字转WAV音频