2022年“中国旅游日”深圳分会场...
5月19日,2022年中国旅游日深圳市分会场活动在...
(资料图)
AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。
MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。
MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。
300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。
其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。
除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。
开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。
关键词:
AI创业公司MosaicML近日发布了其语言模型MPT-30B,单从参数来看,这个
OSCHINA 2023-06-24保护知识产权激发创新活力---前不久,一则关于西安市获中国专利奖再创
经济日报 2023-06-24穿衣搭配技巧,就像我们在森林里寻找宝藏一样,当你迈出新的一步,尝试
鱼司辰 2023-06-24本文内容由先锋鸟APP提供!帮助糖友们记录血糖、血压、尿酸、饮食、运
老贺8166 2023-06-241、大产权房价格在2800至4700之间。本文到此分享完毕,希望对大家有所
互联网 2023-06-24俄乌冲突爆发以来,美国等西方国家多次向乌克兰提供武器援助。多名美国
央视新闻客户端 2023-06-241、支撑位:当股价跌到某个价位附近时,股价停止下跌,甚至有可能还有
互联网 2023-06-24AI创业公司MosaicML近日发布了其语言模型MPT-30B,单从参数来看,这个
OSCHINA 2023-06-24保护知识产权激发创新活力---前不久,一则关于西安市获中国专利奖再创
经济日报 2023-06-24穿衣搭配技巧,就像我们在森林里寻找宝藏一样,当你迈出新的一步,尝试
鱼司辰 2023-06-24本文内容由先锋鸟APP提供!帮助糖友们记录血糖、血压、尿酸、饮食、运
老贺8166 2023-06-241、大产权房价格在2800至4700之间。本文到此分享完毕,希望对大家有所
互联网 2023-06-24俄乌冲突爆发以来,美国等西方国家多次向乌克兰提供武器援助。多名美国
央视新闻客户端 2023-06-241、支撑位:当股价跌到某个价位附近时,股价停止下跌,甚至有可能还有
互联网 2023-06-245月19日,2022年中国旅游日深圳市分会场活动在...
大连将30个中风险地区调整为低风险地区 ...
中新网成都11月22日电 (记者 刘忠俊)四...
(北京冬奥会)北京规划超270公里冬奥道路网...
中新网杭州11月22日电(郭其钰 张益聪)“...
连续两个月回升!6月份中国物流业景气指数为52.1%
山西长子“羊倌”养羊20余年 带动700余户养殖户发“羊财”
上海首个“两山”实践创新基地成功创建
广西医科大一附院向越南捐赠医疗防疫物资
黄埔海关破获案值5.5亿元走私进口二手挖掘机案
Copyright 2015-2032 华西仓储网版权所有 备案号:京ICP备2022016840号-35 联系邮箱: 920 891 263@qq.com