最后得出的结论就是只要在能量层面相同的情况下文字转WAV音频