核心亮点
万亿模型核心基石
- FastMoE
自主研发首个支持国产超算和GPU的高性能MoE系统,支持Switch,Gshard等复杂均衡策略以及不同Experts与Models。目前已部署在阿里巴巴PAI平台,进一步探索支付宝智能化服务体系应用。
双语跨模态万亿大规模预训练模型 - “悟道”
中国首个全球最大万亿模型“悟道”,参数量达1.75万亿,融合GLM语言框架和Cogview图文框架,基于自研FastMoE在100%神威国产超算和WuDaoCorpora数据集上完成训练。
世界上最大的中文多模态生成模型- CogView
参数量为40亿,模型可实现文本生成图像,支持多领域文生图任务。目前在公认MS COCO文生图任务上取得了超过OpenAI DALL·E的成绩,获得世界第一。
文生图
少样本学习微调算法 - P-tuning
Promptuning算法,历史上首次实现自回归模型在理解任务上超越自编码模型,并在知识探测和小样本学习的多个数据集上取得世界第一,提升高达20百分点。
GPT Understands
Too
全流程高效预训练框架
高效编码
最高效、抗噪性好的中文预训练编码技术。
高效模型
世界首个纯非欧空间模型,使用一半参数量近似欧氏模型效果。
高效训练
世界首创大模型融合框架,高效训练新模式,训练速度提升37%型效果。
高效精调
实现基于Prompt高效精调,训练0.001%参数实现下游任务适配。
高效推理
单卡实现千亿参数模型推理计算。
“悟道”开放能力
模型
算法
工具
数据
GLM系列:
语言模型类
英文
自然语言理解&自然语言生成
ProteinLM:
蛋白质类
蛋白质
接触预测
二级结构预测
荧光性预测
折叠稳定性预测
CPM系列:
语言模型类
中文、中英双语
自然语言理解&自然语言生成
Transformer-XL-2.9B:
语言模型类
中文
自然语言生成
Lawformer-100M:
语言模型类
中文法律长文本
自然语言理解
CogView:
多模态模型类
中文
文生图&图生文
查看更多 >
“悟道”生态
产业生态
与各领域头部企业合作,构建示范应用,通过领头企业的完整产业链,对示范应用进行评估,发掘市场化需求,为大模型生态构建提供指导
开源生态
推动模型、算法、工具、API等多维度社区开源,企业级用户、个体开发者、研究机构等可根据自身研发需求使用悟道开源成果
应用生态
开展悟道应用大赛,发掘模型潜在应用方向。同时构造多项图灵测试,挑战“以假乱真”,测试模型能力极限
数据生态
构建高质量数据集,支撑悟道项目研究,覆盖文本、视觉和对话等领域,推动中国通用人工智能领域发展。
战略合作
截止到2021年8月,“悟道”已与32家产业单位达成战略合作意向,就悟道大规模预训练模型进行产业应用合作从底层数据资源、中层模型研发到上层AI应用推进悟道产业生态的建设,从单点突破提升至全方位突破