Falcon 40B 110亿参数5.5万亿token

Falcon 40B是由阿联酋的Technology Innovation Institute（TII）发布的一个开源大型语言模型，截止到2023年5月27日，它在Hugging Face的大语言模型排行榜上取得了显著的成绩。这个模型有400亿参数，并在推理、理解等四项Open LLM Leaderboard任务上评价得分第一，超过了之前的LLaMA-65B模型 1 。

Falcon 40B模型是一个decoder-only的自回归模型，它在AWS上进行了2个月的训练，使用了384个GPUs。这个模型的训练计算量是GPT-3的75%、Chinchilla的40%，是Google PaLM-62B的80%。它使用了1万亿个tokens进行训练，并且其推理效率是GPT-3的1/5。官方建议使用Falcon-40B作为基础模型，针对特定任务进行微调。如果你希望使用类似ChatGPT那样的问答能力，则建议使用他们微调后的模型Falcon-40B-Instruct 1 。

Falcon 40B备受关注的原因主要有几点。首先，它在Hugging Face榜单的数据显示，Falcon相比于其他模型的提升幅度很大。其次，Falcon是少数非西方国家实验室开发的开源大模型产品之一，其研发方来自阿联酋的阿布扎比技术创新研究所（TII）。此外，Falcon-45B使用了1万亿个token进行训练，可以用更少的训练计算能力实现更优的效果 2 。

Falcon 40B虽然不是迄今最大的开源语言模型，但它一举登顶Hugging Face开源大语言模型排行榜，超过了LLaMA-65B、StableLM、RedPajama和MPT等知名模型。TII使用Amazon SageMaker Training API提供的瞬态集群来训练Falcon大语言模型，最多支持48个ml.p4d.24xlarge实例（384个英伟达A100 GPU）。现在，TII正在训练下一代Falcon大语言模型，将训练扩展到3136个A100 GPU（392个ml.p4d实例） 3 。

数据统计

相关导航

Bertha.ai

Attention Required! | Cloudflare

cinema-4d

Cinema 4D is the perfect package for all 3D artists who want to achieve breathtaking results fast and hassle-free.

Designs.ai

Try Designs.ai for free and create anything online in 2 minutes! Make a logo, video, social media banner, business card, flyer, mockup and more with AI.