小米网站seo分析报告+书,应用公园怎样收费,天元建设集团有限公司蒙阴分公司,淄博百度网站建设千问的config#xff1a;
seq_len2k max_position_embedding8k
注意#xff0c;以下实验结果的字数是token数#xff0c;不是中文字符数。
不使用动态ntk
12000字输入#xff1a; 乱码5000字输入#xff1a;乱码1500字输入#xff1a;正常
不使用动态ntk#xff0c…千问的config
seq_len2k max_position_embedding8k
注意以下实验结果的字数是token数不是中文字符数。
不使用动态ntk
12000字输入 乱码5000字输入乱码1500字输入正常
不使用动态ntk使用线性位置插值 缩放4倍
12000字输入 乱码5000字输入正常但废话多质量低。1500字输入正常但答案错误
不使用动态ntk使用线性位置插值 缩放2倍
12000字输入 乱码5000字输入乱码1500字输入正常但答案数字正确但小数点错误文本质量低
使用动态ntk
12000字输入答案信息在中间位置 正常答案正确12000字输入答案信息在靠前位置 正常答案错误但有相关信息
使用动态ntk同时 使用线性位置插值 缩放2倍
12000字输入答案信息在中间位置 正常答案错误12000字输入答案信息在靠前位置 正常答案错误后面开始出现乱码
结论
如果不使用动态ntkqwen只能适应2k以下文本否则就输出乱码。如果使用动态ntkqwen可以适应上万字文本且无需微调。8k是注意力窗口的长度文本超过8k将会导致丢失8k距离外的信息。线性插值可以使模型在2k以上文本时不出现乱码但是如果不进行微调回答质量很低。