Databricks开源可商用的指令遵循大型语言模型Dolly 2.0

Databricks在释出大型语言模型Dolly的两周后,又释出了Dolly 2.0,而第二个版本的重点在于开源且商业可用。 Databricks集结5,000名员工,共同编写databricks-dolly-15k指令遵循数据集来训练Dolly 2.0,现在Databricks对外开源整个Dolly 2.0,包括训练代码、数据集和模型权重,供商业和学术使用。

Databricks开源可商用的指令遵循大型语言模型Dolly 2.0

Databricks以30美元超低成本,训练出Dolly 1.0模型,Dolly 1.0使用斯坦福大学的Alpaca模型开发团队,以OpenAI API所产生的指令遵循数据集训练而成。 Databricks在发布Dolly 1.0之后,收到许多人询问Dolly 1.0是否可以用于商业用途,官方答案是,可能不行。

因为Alpaca模型开发团队所生成的指令遵循数据集,内容包含使用OpenAI的text-davinci-003模型生成的数据,而该OpenAI的使用条款,明确禁止用户将其用于开发和OpenAI竞争的模型。 目前所有知名的指令遵循模型,几乎都受到相同限制而无法用于商业目的,因此Databricks要产生一个允许商业用途的指令遵循模型,势必需要创建一个全新的数据集。

要取得人工智能的丰硕成果,背后需要许多工人智能的累积,OpenAI的论文说明InstructGPT模型,是使用一个包含13,000个指令遵循数据集训练而成,Databricks表示,创建13,000条问题和答案比想象的还困难,因为每个答案都必须是原创,不能来自ChatGPT或是从网络上其他来源复制,否则会污染资料集。

Databricks招来自家5,000名员工,共同编写指令遵循数据集,目标是创建比OpenAI质量更高的数据集,毕竟OpenAI的数据集仅由40个人产生。 Databricks举办了一场比赛,前20名将可获得公司提供的大奖,资料集具体的内容包括开放问答、封闭式问答、可由维基百科段落回答的问答、维基百科总结信息、脑力激盪、分类和创意写作。

最后Databricks编写出一个具有15,000条问答的数据集databricks-dolly-15k,官方提到,虽然这个数据集比Dolly 1.0所使用的Alpaca资料集小得多,但是EleutherAI的pythia-12b经过databricks-dolly-15k资料集训练之后,却能表现出高质量指令遵循行为,官方提到, 由模型生成的数据集反而存在幻觉和错误事实,而databricks-dolly-15k由专业人士生成,包含高质量和更长答案,产生的结果也会更好。

Dolly 2.0项目完全开源,无论是商业还是学术用途,皆可用来创建高质量模型,且不需要冒着向第三方泄漏机密的风险,官方也认为,人工智能的安全、偏见和问责议题,需要由不同利益相关者共同解决,而开源数据集和模型,将可促进这类的研究和创新。

用户要下载Dolly 2.0模型的训练权重,可以从Hugging Face页面,并且存取databricks-labs中的Dolly储存库,下载databricks-dolly-15k数据集即可取得。

使用第三方的人工智能服务就有泄漏敏感资料的可能,三星因为开放员工使用ChatGPT,而泄露包括半导体设备量测数据库、生产/瑕疵设备相关软件,以及公司会议语音转录文字纪录等机密资料,这样的情形也不只发生在三星,资安公司Cyberhaven监控160万名员工 ,发现有3.1%员工上传敏感资料到ChatGPT上,因此对企业来说,自建指令遵循人工智能模型,可能是一个更安全也更有吸引力的选择。

(0)

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注