当前位置: 首页 > 时尚 > 内容页

波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键

2023-08-21 11:33:04 来源:新智元

Hugging Face上的开源大模型排名榜又更新了,这次荣登榜一的是:鸭嘴兽(Platypus 2-70B)!

和现在抱脸开源榜单上大部分的模型一样,鸭嘴兽是来自波士顿大学的研究人员基于Llama2微调而来。

同时,鸭嘴兽的进步就像之前所有的开源大模型那样:在提升性能的同时,使用更少的计算资源和数据。


(资料图片仅供参考)

一个13B的鸭嘴兽模型可以在单个A100 GPU使用25k个问题在5小时内完成训练。

论文地址:https://arxiv.org/pdf/2308.07317.pdf

根据研究人员的论文描述,鸭嘴兽70B变强的原因主要是两点:

1. 编辑数据集:删除相似和重复的问题

2. 使用LoRA和PEFT对模型进行了优化,重点关注非注意力模块

而在检查测试数据泄漏和训练数据污染方面,鸭嘴兽也做出了自己的贡献,这为未来的研究提供了有价值的参考。

多快好省的鸭嘴兽

鸭嘴兽主要是通过在一个小而强大的数据集Open-Platypus上使用参数高效调整(PEFT)和LoRA中对非注意力部分的微调来改进模型的性能。

与一般专注于专业领域的模型在微调是耗时又昂贵不同,鸭嘴兽既做到了在总体上的模型性能提升,同时在特定领域的表现也很优秀。

在研究中发现,领域特定的数据集可以提高在所选任务类别上的性能。当与模型合并结合使用时,能够显著减少训练时间。

开源数据集

研究团队通过Hugging Face向公众开放了鸭嘴兽的数据集Open-Platypus:

Open-Platypus由11个开源数据集组成,主要由人为设计的问题组成,只有大约10%的问题由LLM生成,能够以最小的微调时间和成本实现强大的性能。侧重于提高LLM的STEM和逻辑能力。

同时,研究团队也对这些数据集进行了优化,这有助于缩小数据集并最大限度地减少数据冗余。

具体操作包括:

通过相似性排除的方法来最小化记忆,删除了所有逐字逐句的重复指令,然后删除了与训练集中其他指令的SentenceTransformers 嵌入具有80%余弦相似度的指令。

并且默认保留具有更详细答案的问题与答案对。因为较长的答案很可能对应更详细的解释和/或逐步解决方案。

解决数据污染

研究团队深入探索了开放式LLM训练集中的污染问题,并介绍了对鸭嘴兽数据进行过滤过程。

研究团队数据过滤的方法,其核心是确保基准测试题不会无意中泄漏到训练集中,这是为了防止测试数据的记忆对基准结果造成歪曲。

考虑到这一点,在确定是否应将问题标记为重复问题并从训练集中删除时,应留有余地。

在确定可疑问题时允许一定的灵活性,因为查询有多种措辞方式,同时,通用领域知识可能会阻止问题被视作重复。

为此,研究团队开发了以下启发式方法,用于指导人工筛选来自 Open-Platypus 的、与任何基准问题相似度大于 80% 的问题。

研究团队将潜在问题分为三类:重复、灰色区域和相似但不同。但为了谨慎起见,研究团队会将它们全部从训练集中删除。

1. 重复:

这些问题几乎是测试集问题的完全复制品,可能只有一个微小的词语变化或轻微的重新排列。

这是我们将之定义为“真正”的污染类别,如上表中泄漏问题的数量所示。这种情况的具体示例如下:

2. 灰色区域

这组问题被称为灰色区域,包括并非完全重复的问题,属于常识范畴。

虽然我们将这些问题的最终评判权留给了开源社区,但我们认为这些问题往往需要专家知识。

值得注意的是,这类问题包括指令完全相同但答案却同义的问题:

3. 相似但不同:

最后一类问题包括尽管具有较高的余弦相似性分数,但答案却截然不同的问题。

这通常可以归因于问题结构的细微变化,从而产生完全不同的答案。

下图中的第一个问题就是一个很好的例子,其中对旋转轴和象限定义的修改极大地改变了最终答案。

微调与合并模型

在完善数据集并对污染进行三重检查后,研究团队对模型进行了微调与合并。

方法主要是低秩逼近(LoRA)训练和参数高效微调(PEFT)库。

与完全微调不同,LoRA 保留了预先训练的模型权重,并在转换层中整合了秩分解矩阵。

这可以减少可训练参数,并节省训练的时间和成本。

例如,鸭嘴兽的13B模型使用1个A100 80GB进行了5个小时的微调,70B模型使用4个A100 80GB进行了22个小时的微调。

而作为比较基准,斯坦福大学对Alpaca-7B 的全面微调是在8 个 A100 80GB 上进行的,并花费了3个小时。

研究团队对模型的微调最初主要针对的是注意力模块,如 v_proj、q_proj、k_proj 和 o_proj。

后来,研究人员转向了对gate_proj、down_proj 和 up_proj 模块的微调,与注意力模块相比,除了可训练参数小于总参数的 0.1% 时,微调这些模块模型的性能表现更好。

为了保持一致性,研究团队对13B和70B模型统一采用了这一方法,可训练参数分别为0.27%和0.2%。

唯一的差异在于这些模型的初始学习率。

研究团队的模型合并策略则旨在评估与Instruct和Beluga等广泛模型或Camel 等专业模型合并的协同效应。

研究团队发现,合并模型能够有效拓宽模型的知识基础,但选择何种模型进行合并,是广泛合并还是集中合并,在决定性能结果方面起着关键作用。

同时,模型合并的效果因测试的具体领域而异。

所有领域的性能提升和下降并不一致,意味着在最终确定合并之前进行特定领域评估的必要性。

鸭嘴兽排名第一

截止到今天的Hugging Face开源LLM排行榜数据,Platypus2-70B依旧稳坐第一,而它的变体也在众多LLM中排名前列。

而在13B的尺寸上,鸭嘴兽的表现也同样亮眼,以平均分63.96脱颖而出,成为13B模型的领跑者。

Hugging Face的Open LLM排行榜

Huggingface的Open LLM排行榜目前是开源社区使用最多,同时也是参与模型最多的排行榜。

Open LLM排行榜使用Eleuther AI语言模型评估框架,这是一个在大量不同评估任务上测试生成式语言模型的统一框架,会在 4 个关键基准上对模型进行评估。

1. AI2 :针对科学问题的推理测试,共有25次测试。

2. HellaSwag:常识推理测试,但对大语言模型来说具有相当的挑战性,总共进行10次测试。

3. MMLU:用于测量文本模型的多任务准确性。该测试涵盖 57 项任务,包括初等数学、美国历史、计算机科学、法律等,总共测试10次。

4. TruthfulQA:用于测试模型复制网上常见虚假内容的倾向。

整个测试框架都是开源的,网友可以直接在本地用这个框架测试模型,或者提交模型给Hugging Face来在线跑分。

全世界大大小小的模型都有机会打榜,成功登顶就可以标榜自己是世界第一。

一个韩国团队训练的开源模型,在被鸭嘴兽超越之前曾经是世界第一。他们就很自豪地将这个成果展示在公司主页最瞩目的地方。

Hugging Face的Open LLM排行榜,不仅能让技术人员客观对比模型的能力,还能给开源社区模型提供一个展示自己以获取外部资源,最终进一步发展的机会。

这也与开源社区的宗旨一致:

秉持高性价比的理念,允许各种改进模型的尝试,拥抱开放和共同进步.....

也许这就是开源社区如此生机勃勃的原因。

标签:

潮流

更多

猜你喜欢

更多
2-1德约救赛点逆转复仇阿尔卡拉斯,夺大师赛39冠,激动撕衣庆祝 炫舞情侣网名一男一女符号(炫舞情侣网名一对) 《星空》高管回应前暴雪开发者批评:极不专业的质疑 本田也将在北美采用特斯拉充电标准 长庆油田累计产量破6000亿方 跨境电商跑出加速度(经济聚焦·关注外贸促稳提质) 【高质量发展调研行】文旅赋能 工业强市——天水市经济社会高质量发展见闻 兴业银锡(000426)8月18日主力资金净买入1046.03万元 原神提纳里角色图鉴 旱鸭子是什么意思 lsquo旱鸭子rsquo是什么意思 莱芜市畜牧兽医局(关于莱芜市畜牧兽医局的简介) 富硒蚕蛹新硒蛋白的结构与功能的初步研究(关于富硒蚕蛹新硒蛋白的结构与功能的初步研究介绍) 雷电黄色预警依然高挂!浦东新区下周天气如何?一起来看 表示走的词语(表示听的词语) 国米首秀2比0米兰二队,小伊布登场9分钟后送助攻,马洛塔亮明牌 中国公司雇员数量新排名:比亚迪第5,富士康第3,第一有百万员工 磁力驱动循环泵 高温磁力驱动泵 浙江广电回应《中国好声音》争议:将进一步调查核实 五星体育:过去四年女足职业化程度提高,欧洲女足实力显著增长 1-0!女足世界杯新王诞生:西班牙加冕,重奖1050万美元 贵州茅台宣布由王莉代行总经理职责 海南大学重庆录取分数线 海南大学重庆招生人数多少 哈尔滨商业大学2023年录取分数线 哈尔滨商业大学是几本 奥赛康(002755.SZ):抗肿瘤生物创新药ASKG915在美国开展的I期临床研究完成首例患者给药 奥维通信:对外投资设立控股子公司 传奇投资人痛批:美联储错了,通胀永远回不去了,美经济衰退不可避免 中金公司:资本市场改革助力信心提振,A股当前位置机会大于风险 吉利银河旗下首款轿车银河L6开启预售 8月25日见 学习笔记丨金砖国家这样发挥“金砖力量” 队友迭戈-戈麦斯晒与梅西合照:与地球上最好的球员合影 双燃料汽车有哪些 太原一处桥梁违章广告被取缔 hud抬头数字显示是什么 HUD抬头显示的作用 hud抬头数字显示实用么 剑指坦克300!全新北京BJ40官图曝光 成都车展预售 日本东京面临缺水危机 东京17个地区地下水被污染 南国书香节|蔡崇达:写《命运》其实写的是我们这片土地上,所有人的精神家底 GoPro HERO12 Black 运动相机曝光,最大改进是电池续航 晶核狂战士加点攻略 渔获“游”进八市 不少海鲜量多价跌 京北旅行 甄选赤城 机构:三七互娱新品周期到来 全年增长能见度提升 博越和博越l有什么区别(博越pro和博越的区别是什么) 西港全球购官网(西港全球购宝妈时光) 颈部淋巴结结核症状表现(颈部淋巴结核症状) 凌晨刚刚作案得手的盗窃团伙,遇到了下班的特警队长…… 动漫壁纸(4) 贵州黄平:“订单高粱”助农增收 东湖评论:互联网维权,切勿以“曝”制“暴” 天津十四仓遗址新仓储遗迹实证元代漕运历史 医药类的专科学校新疆排名 河北省较好的专科医学院校排名 教辅书行业供需状况及市场竞争格局分析2023 1J22软磁合金特性分析 受地震影响 四川多条铁路线路出现晚点 空调有股臭味(空调有臭胶味是什么问题) 遇到有人冒充警察来诈骗怎么办 今天,请把目光看向他们... 古代称对方的妻子叫什么 古代称对方的妻子叫什么支付宝 蒸压加气块设备(关于蒸压加气块设备简述) 香港赛马会捐款两千万港元支援内地防汛救灾 *ST正邦公布重整计划:双胞胎集团牵头投资、拟4年内“借壳”上市 白衣作甲 护佑人民健康 娇韵诗双萃焕活修护精华露靠谱吗? 稳固支持实体经济 货币政策要精准有力 山东多地同步启动!壹点动心·齐鲁相亲大会七夕与你共浪漫 “点”“线”“面”相结合 宁波市农机畜牧中心打造“立体式”主题教育 有翅膀的蚂蚁是什么(有翅膀的蚂蚁) 德转预测利物浦首发:萨拉赫,努涅斯领衔,远藤航等三新援在列 退役不退后 抗洪冲在前——退役军人积极参与防汛救灾的两组镜头 新华全媒+丨摘取造船工业“皇冠上的明珠”——中国高质量发展亮点透视之一 藏木水电站属于哪个公司(藏木水电站) 河南省郑州市2023-08-19 03:28发布暴雨橙色预警 这是作死的节奏啊! 中国小伙今年2月在泰国突然失踪至今,大使馆回应 北京将为行业使用电动三轮车核发“京C”号段摩托车牌 今夏公安机关已查处涉嫌“飙车炸街”案件2.7万起 典型案例曝光 中景橙石拟向银行合计申请2000万贷款董事长王理忠对该笔贷款提供无限连带责任保证 95号汽油密度是多少(汽油密度是多少) 不要命!男子为找刺激爬上埃菲尔铁塔上跳伞,从近300米高处跳下,落地后躲进灌木丛被搜捕 亚马逊新变动,大批产品销量要受影响! 19-21日陕西有伴有强对流的降雨过程 乌克兰全境拉响防空警报 中兴通讯(00763.HK)上半年扣非净利润增长31.78% 毛利率升6.18个百分点至43.22% 巴西籍媒体人:金砖为发展中国家提供重要合作平台 吸引力持续提升 今年最帅的拉力摩托车,高金Storr 500专利申报曝光 悦心健康(002162.SZ):上半年净利润1.69亿元 同比扭亏 原青海省经济和信息化委员会主任姚琳接受审查调查 GPD 新款 WIN Mini 掌机价格公布:R7 7840U 版 4999 元 7月餐饮收入同比增长15.8%,工业活动恢复放缓 | 高频看宏观 兴业银行落地银行间市场首单公租房类REITs 21年新高!美联储激进紧缩周期下美国30年期抵押贷款利率飙至7.09%,买家支付能力创近40年新低,但巴菲特却刚下了重注 亲密关系中,“真爱你”的男人,才会给你这3样东西 江苏泗洪发现濒危野生大豆(笑谈文史说:江苏发现约1.5吨唐宋钱币窖藏) 浙江世宝(002703):股价5分钟涨速大于5%(08-18) 苹果良心升级!iPhone 15将支持最高35W充电功率 上海虹口足球场演唱会停车攻略(官方最新) 豆皮菠菜卷的做法大全(菜卷的做法大全) 多起雨天事故!开车的一定注意了→ realme官宣量产240W满级秒充:真我GT5手机首发 山水觅清凉 解锁新玩法——重庆“避暑经济”发展观察 照明如何增强家庭内的不同空间

时尚

  1. 波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键

    波士顿大学「鸭嘴兽-70B」登顶Hugging Face大模型排行榜!高效数据集+独特LoRA微调是关键

  2. 今日全球农产品重要资讯汇总(8月21日)

    今日全球农产品重要资讯汇总(8月21日)

  3. 联合国驻塞浦路斯维和部队谴责袭击联合国维和人员

    联合国驻塞浦路斯维和部队谴责袭击联合国维和人员

  4. 金牌喜剧班人物表 金牌喜剧班中女特务)

    金牌喜剧班人物表 金牌喜剧班中女特务)

  5. 3.35毁伤贼武器选择(3.35毁伤贼配装)

    3.35毁伤贼武器选择(3.35毁伤贼配装)

  6. 01月26日周口前往十堰出行防疫政策查询-从周口出发到十堰的防疫政策

    01月26日周口前往十堰出行防疫政策查询-从周口出发到十堰的防疫政策

  7. 水利部和气象局联合发布橙色山洪灾害气象预警

    水利部和气象局联合发布橙色山洪灾害气象预警

  8. 铭利达:1000万张“铭利转债”于8月23日起挂牌交易

    铭利达:1000万张“铭利转债”于8月23日起挂牌交易

  9. 搜救人员完成对约80%夏威夷毛伊岛受灾区域的搜寻 仍有一千多人失踪

    搜救人员完成对约80%夏威夷毛伊岛受灾区域的搜寻 仍有一千多人失踪

  10. 超长三伏天终于结束,湖南将降雨来袭高温缓解

    超长三伏天终于结束,湖南将降雨来袭高温缓解