(相关资料图)
项目成员Guillaume Lample发推文写道:“与Chinchilla、PaLM或GPT-3不同,我们只使用公开可用的数据集,从而使我们的工作与开源兼容并且可重现,而大多数现有模型依赖未公开可用或未正式记录的数据。”
Meta将其LLaMA模型称为“基础模型”,这意味着这家公司打算将这些模型作为基础,以便将来开发基于该技术构建的更精细的AI模型,类似OpenAI利用GPT-3的基础构建ChatGPT的方式。
该公司希望LLaMA将在自然语言研究和潜在的高级应用领域发挥作用,比如“问题回答、自然语言理解或阅读理解,深入了解当前语言模型的能力和局限性”。 虽然最高端的LLaMA模型(有650亿个参数的LLaMA-65B)剑指来自DeepMind、谷歌和OpenAI这些AI竞争对手的类似产品,但可以说最值得关注的动向还是来自LLaMA-13B模型:如前所述,据称这种模型可以在单个GPU上运行,性能优于GPT-3。 与GPT-3衍生技术对数据中心的要求不同,LLaMA-13B为在不久的将来在消费级硬件上获得类似ChatGPT的性能打开了大门。参数数量是AI中一个很重要的指标。参数是机器学习模型用来根据输入数据进行预测或分类的变量。语言模型中参数的数量是决定性能的关键因素,更大的模型通常能够处理更复杂的任务,并生成更一致的输出。然而更多的参数占用更多的空间,需要更多的计算资源来运行。因此,如果一个模型能在参数较少的情况下获得与另一个模型相同的结果,这表明它显著提升了效率。 独立AI研究人员Simon Willison在Mastodon的一个帖子中分析了Meta新AI模型具有的影响,他写道:“我现在认为,一两年内,我们可以在自己的(最先进)手机和笔记本电脑上运行拥有ChatGPT大部分功能的语言模型。” 目前,精简版的LLaMA已发布在GitHub上(https://github.com/facebookresearch/llama)。 为了获得完整的代码和权重(神经网络中“习得”的训练数据),Meta提供了一个表单(https://forms.gle/jk851eBVbX1m5TAv5),感兴趣的研究人员可以请求访问。Meta目前还没有宣布更广泛地发布模型和权重的计划。