模型框架是基于千问3-0.6b的,修改了部分结构,其中注意力头维度为32会报错,如果修改Warp Group参数,后面有很多问题,有什么办法可以支持注意力32维度的吗
模型框架是基于千问3-0.6b的,修改了部分结构,其中注意力头维度为32会报错,如果修改Warp Group参数,后面有很多问题,有什么办法可以支持注意力32维度的吗