第二阶段主要是手腕和手指发力文字转WAV音频