第一阶段主要是手臂和手腕用力文字转WAV音频