机械之心编译
编纂:Panda
语言模子:过长我不看 。语言远偷
大型语言模子大实用途,模偏模在妄想 prompt 方面,懒新略过人们个别建议为语言模子提供详尽的钻研中间使命形貌以及布景信息。
近期的高过长一些语言模子有能耐输入较长的高下文 ,但它事实能多好地运用更长的下文高下文?这一点却相对于少有人知 。
克日,语言远偷斯坦福大学 、模偏模加州大学伯克利分校以及 Samaya AI 的懒新略过钻研者宣告了一篇实证研品评辩说文 ,探究了这个下场。钻研中间
论断使人意外:假如高下文过长 ,高过长语言模子会更关注其中的下文先后部份,中间部份却简直被略过不看,语言远偷导致模子难以找到放在输入高下文中部的模偏模相关信息。
论文链接:https://arxiv.org/pdf/2307.03172.pdf
他们对于多种差距的懒新略过开源(MPT-30B-Instruct、LongChat-13B (16K))以及闭源(OpenAI 的 GPT-3.5-Turbo 以及 Anthropic 的 Claude)的语言模子妨碍了比力试验 —— 试验中需要模子取患上并运用输入高下文中的信息