5月25日,面壁智能等机构开源三值大模型BitCPM-CANN。
该模型是中国首个基于华为昇腾平台端到端训练并开源的1.58-bit大模型。从量化算子到全链路框架均在昇腾910B上原生完成。模型包含0.5B、1B、3B、8B四个尺寸。相比传统BF16精度,推理阶段释放约6倍显存。
1B、3B和8B版本性能保留率分别为97.1%、97.2%和95.7%。0.5B版本保留率为90.1%。在昇腾910B上量化训练吞吐为148 TFLOP/s。对比全精度155 TFLOP/s,额外计算开销约4.5%。
训练底座基于MindSpeed与Megatron-LM搭建。该体系包含环境适配、32K长序列支持及融合算子。全系列模型权重已在HuggingFace和ModelScope开源。
市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
来源:市场资讯