Falcon 40B是由阿联酋的Technology Innovation Institute(TII)发布的一个开源大型语言模型,截止到2023年5月27日,它在Hugging Face的大语言模型排行榜上取得了显著的成绩。这个模型有400亿参数,并在推理、理解等四项Open LLM Leaderboard任务上评价得分第一,超过了之前的LLaMA-65B模型 1 。
Falcon 40B模型是一个decoder-only的自回归模型,它在AWS上进行了2个月的训练,使用了384个GPUs。这个模型的训练计算量是GPT-3的75%、Chinchilla的40%,是Google PaLM-62B的80%。它使用了1万亿个tokens进行训练,并且其推理效率是GPT-3的1/5。官方建议使用Falcon-40B作为基础模型,针对特定任务进行微调。如果你希望使用类似ChatGPT那样的问答能力,则建议使用他们微调后的模型Falcon-40B-Instruct 1 。
Falcon 40B备受关注的原因主要有几点。首先,它在Hugging Face榜单的数据显示,Falcon相比于其他模型的提升幅度很大。其次,Falcon是少数非西方国家实验室开发的开源大模型产品之一,其研发方来自阿联酋的阿布扎比技术创新研究所(TII)。此外,Falcon-45B使用了1万亿个token进行训练,可以用更少的训练计算能力实现更优的效果 2 。
Falcon 40B虽然不是迄今最大的开源语言模型,但它一举登顶Hugging Face开源大语言模型排行榜,超过了LLaMA-65B、StableLM、RedPajama和MPT等知名模型。TII使用Amazon SageMaker Training API提供的瞬态集群来训练Falcon大语言模型,最多支持48个ml.p4d.24xlarge实例(384个英伟达A100 GPU)。现在,TII正在训练下一代Falcon大语言模型,将训练扩展到3136个A100 GPU(392个ml.p4d实例) 3 。
数据统计
数据评估
本站Xcron提供的Falcon 40B 110亿参数5.5万亿token都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由Xcron实际控制,在2024年6月5日 下午5:14收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,Xcron不承担任何责任。
相关导航
One place for all extensions for Visual Studio, Azure DevOps Services, Azure DevOps Server and Visual Studio Code. Discover and install extensions and subscriptions to create the dev environment you need.












