他现在考虑的是怎么进一步增加难度文字转WAV音频