我现在的任务就是尽量把损失减到最小文字转WAV音频