泄露!「闪现」1分钟被删配置被网友扒光爱游戏平台刚刚OpenAI神秘开源模型
· 36层Transformer-◇▷▷,每层可能有MoE路由•…■▪;· 大规模MoE设置(128个专家◇☆◆★▼□,每个token激活4个)▼○■◁■;· 词表超过20万◁■,可能支持多语种或代码混合输入▼△▷●;· 上下文窗口为4096■○◇-,但也有滑动窗口和扩展RoPE○△…◆,表明模型可能具备处理更长上下文的能力▼▽▲;· 使用RoPE的NTK插值版本▼•,这是许多模型扩展上下文的一种方式(如GPT-4 Turbo使用的方式)▼○◇-;· 注意力头多达64个★…•▽□=,但键/值头只有8个爱游戏平台■■△,意味着模型用的是是Multi-QueryAttention(MQA)=☆。
他不仅也在Hugging Face上发现这个模型◆◆■■△▼爱游戏平台刚刚OpenAI神秘开源模型,甚至还有一位OpenAI成员点赞了他的爆料推文▽…-△。
这组参数像是一个基于MoE(Mixture of Experts)混合专家架构的高容量模型•△●■,上传这个模型的组织叫做「yofo-happy-panda」◁•▼▪☆▽,共有三名成员●==。具备以下几个特点▲★:
他分享了一段LLM的配置文件爱游戏平台▼○☆●◆泄露!「闪现」1分钟被删配置被网友扒光,极有可能是OpenAI即将开源模型的详细参数○△。
幸运的是▪◁▽△=,在它被删除之前◆=,Jimmy Apples保存了配置▲▷△,在只有不到「1分钟」的时间窗口◆▽!
gpt属于OpenAI○…▲●,oss代表开源软件■◇○▼-,20b和120b代表了两个参数版本▷=◆★○-。




