什么是悟道?
大规模预训练技术的出现,使得预训练模型在经过微调或不用微调的情况下就可用于多个AI任务的实现。
2020年10月,北京智源人工智能研究院启动超大规模预训练模型研发项目“悟道”,旨在填补我国大模型领域自主研发的空白,瞄向世界先进水平,定位中国“第一”模型。
核心亮点
双语跨模态万亿大规模预训练模型 - 悟道
中国首个全球最大万亿模型“悟道”,参数量达1.75万亿,融合GLM语言框架和Cogview图文框架,基于自研FastMoE在100%神威国产超算和WuDaoCorpora数据集上完成训练。
超越世界先进水平的高精图文生成
Cogview是中国最大的图文生成预训练模型,参数规模达到40亿,经过微调后可实现国画、油画、水彩画、轮廓画等图像生成,在MS COCO的文生图任务上,其性能远远优于以前GAN-based的模型和DALL·E
P-tuning:GPT也能自然语言理解
借助 P-tuning,GPT 在 Super GLUE 上的成绩首次超过了同等级别的 BERT 模型,这颠覆了一直以来“GPT 不擅长 NLU”的结论
开源开放
GLM
打破BERT和GPT的瓶颈,单一GLM模型在英文语言理解和生成任务方面取得了最佳结果
语言模型
Cogview
中国最大的图文生成预训练模型
多模态模型
CPM
中国最大的图文生成预训练模型
语言模型
BrivL
图文多模态大规模预训练模型,图文检索任务上有着优异的效果
多模态模型
Transformer-XL-2.9B
基于Transformer-XL训练并开放29亿的语言模型,在长文本生成方面具有优势
语言模型
ProteinLM
蛋白质预训练模型
蛋白质模型
悟道数据
WuDaoCorpora2.0由全球最大的纯文本数据集、全球最大的多模态数据集和全球最大的中文对话数据集三部分构成,分别致力于构建微缩中文世界、打破图文模态壁垒、浓缩对话核心规律,从而形成多维度世界顶级数据库,促进中国的通用人工智能发展
悟道生态
集社会力量共同探索模型下游应用场景和成果转化方向
挖掘潜力研究团队与前沿研究方向
着力培育以“悟道”为核心的开源开放产业创新生态
悟道应用
与各领域头部企业合作,构建示范应用,通过领头企业的完整产业链,对示范作用进行评估,发掘市场化需求,为大模型生态构建提供指导
悟道小呆助力开放问答机器人升级
Self-study - 输入少量领域文本或关键词,快速学习相关知识,生成更高质量的对话。
Style - 快速训练获得需要的风格,在对话中自由切换风格。
Sensation - 在对话中具备顺畅的情绪变化序列,更真实自然的人性情感表达
基于大模型知识问答,助力OPPO小布助手降低99%问答建设成本
利用悟道GLM模型+“持续知识预训练”技术,解决OPPO许多真实场景中无法回答的长尾用户问题,为智能助手问答领域“无人区”提供颠覆式解决方案
冬奥手语播报数字人亮相 大模型助力人工智能升级
基于悟道大模型构建冬奥手语播报数字人系统,将为北京冬奥会期间赛事新闻提供实时手语翻译播报,方便听障人士收看赛事专题报道
(010)6893 3383
© 2022 北京智源人工智能研究院 京ICP备19012194号-3