您的位置:首页 >综合 >

中文大模型让AI更“接地气”

2023-05-25 12:22:19    来源:科技日报

目前成熟的生成式AI模型大多基于英文数据进行训练,在国内各行各业的应用环境中,中文大模型显然更“接地气”。通过中文或英文数据训练出来的大模型,差异比较大,中文的上下文理解和语义的多解性要大于英文。大模型首先要理解人类意图,因此对于国内用户来说,用中文去训练的大模型比较适用。

“请讯飞星火认知大模型模仿梁晓声先生笔下的小说《人世间》的风格,续写一小段文章。”5月20日,在第七届世界智能大会闭幕式上,主持人蒋昌建向讯飞星火认知大模型发问。短短几秒钟,续写文字便“跃然纸上”。原作者梁晓声认为,续写内容简练、文字有一定温度,从传达的情感和思想来看几乎“无可挑剔”。


(相关资料图)

在本次世界智能大会上,生成式人工智能毫无疑问成为大家关注的焦点。近期,国内各大厂商纷纷加快开展生成式AI核心技术的研发,无论是讯飞星火认知大模型展现出的雄厚“中文功底”,还是国家超级计算天津中心发布的基于国产天河超级算力、智能算力和汇集构建中文大数据集研发训练的天河天元大模型,都让大众对我国自主研发的中文生成式AI大模型充满期待。

开发适合国人的中文大模型

“AI大模型是基于海量多源数据打造的预训练模型,是对原有算法模型的技术升级和产品迭代。”国家超级计算天津中心数据智能部部长康波介绍,预训练大模型在基于海量数据的自监督学习阶段完成了“通识”教育,再借助“预训练+精调”等模式,在共享参数的情况下,根据具体应用场景的特性,用少量数据进行相应微调,即可高水平完成任务。

AI大模型能够理解人类的自然语言表达,并通过庞大的网络结构实现具有针对性的内容输出。

从效果上看,生成式AI表现为“无所不知、无所不能”,其具备了逻辑推理、上下文理解、文字创作、知识提取、代码生成等非常多元化的强大能力。

不过,目前成熟的生成式AI大模型大多基于英文数据进行训练。“通过中文或英文数据训练出来的大模型,差异还是比较大的,中文的上下文理解和语义的多解性要大于英文。大模型首先要理解人类意图,因此对于国内用户来说,用中文去训练的大模型比较适用。”康波说。

此外,生成式AI正一步步向生产工具方向发展,为产业深度赋能,或将成为人工智能与实体经济深度融合的重要力量。那么作为数据驱动的AI大模型,其训练数据来源的可靠性和安全性,便成为推动科技创新的关键。因此,自主研发中文大模型成为越来越多科技巨头的首要选择。

三月以来,国内大模型领域已进入“混战”模式,各路玩家纷纷入局,其中有不少都“相中”了研发中文大模型。

“抢抓通用人工智能的发展机遇有几个基本要素。”科大讯飞董事长刘庆峰认为,第一,必须要在自主可控的平台上;第二,必须要同时做中文和英文,不只学习中国的“智慧”,还要向世界学习;第三,在“硬碰硬”的科技对比上,不仅要学习,还要想办法赶超。

例如,阿里推出了首个中文AI模型社区,社区首批上架超300个模型,其中中文模型超过100个,覆盖了视觉、语音、自然语言处理、多模态等AI主要领域,覆盖主流任务超过60个,且均全面开源并开放使用。360公司推出的“360智脑”背后的360GPT大模型,在海量的中文文本数据上进行了预训练和微调,从而具备了强大的语言理解和生成能力。据悉,该模型目前已经达到了100亿参数规模,并且还在不断扩展中。

中文大语言模型数据集稀缺

生成式人工智能是人工智能发展到一定阶段的产物。就像ImageNet数据集推动了残差网络等计算机视觉算法的成熟,openslr等开源数据集的发布催生了长短期记忆神经网络等自然语言神经网络的发展,图形处理器的大量使用使得模型参数从百万级发展到千亿级(ChatGPT使用了上万块A100显卡开展训练)。可以看出,生成式人工智能的快速成长,离不开算力和数据的支撑。

“大模型是大数据、大算力驱动的结果,两者缺一不可。”超级计算天津中心首席科学家孟祥飞博士强调。

一方面,中文大模型的理解能力来自于数据,它需要用海量数据来学习,通过自注意力和多头注意力机制来建立知识之间的联系。这就意味着,更多、更高质量的数据供给,将会带来模型网络中知识之间关系的完善性和贯通性。当用户提问到深层次或者冷门问题时,数据质量越高,AI大模型回答出正确答案的概率就越大。

“但目前中文大语言模型的数据集非常稀缺。”孟祥飞介绍,为了解决这个问题,天津超算中心搜集整理了全域的网页数据,并从中提取处理高质量的中文数据做成数据集,同时采集纳入各种开源训练数据、中文小说数据、古文数据、百科数据、新闻数据以及专业领域的诸如医学、法律等多种数据集,训练数据集总token数达到3500亿,训练打造了中文语言大模型——天河天元大模型。

另一方面,算力的供应是大模型的基础保障。大模型发端于自然语言处理领域,以谷歌的BERT、Open AI的ChatGPT和百度文心一言等大模型为代表,参数规模逐步提升至千亿、万亿,同时用于训练的数据量级也显著提升,带来了模型能力的提高,这也代表着算力需求的指数级上升。

“而超级计算可以说是算力中的战斗机。”孟祥飞说,为了保证大模型的训练顺利,天津超算中心充分利用了天河新一代超级计算机的双精度、单精度、半精度融合计算输出能力,构建基于自主E级算力体系架构的智能计算引擎,建设人工智能大规模训练与应用系统支撑环境,特别是在中文处理方面构建了中文大模型数据处理的工作流技术体系,从而保障了训练任务的顺利开展。

技术成果广泛应用于多领域

在此次世界智能大会上,随着讯飞星火认知大模型一起展示的还有多款搭载了大模型的行业应用成果。

康波认为,人工智能是驱动新一轮科技革命和产业变革的巨大力量,应将大模型作为产业智能化升级的基座,用专业数据集打造更贴合行业领域的智能化高水平“专家”。

以讯飞星火认知大模型为例,该大模型的整体布局为“1+N”体系。其中“1”是指通用认知智能大模型,“N”就是大模型在教育、办公、汽车、人机交互等各个领域的应用。例如在教育领域,作为全球首款搭载认知大模型的学习机,科大讯飞推出的学习机可像真人教师一样与3岁至18岁的学生进行互动式辅学;在办公领域,基于大模型能力升级的产品具备语篇规整、会议纪要、一键成稿等功能。

康波认为,在各行各业的应用中,中文大模型显然更“接地气”。他举例说,天津超算中心综合实现了文本、语音、视频等多模态的大模型生成能力,从而形成了“一平台三能力”的基础架构,实现了更广泛的产业融合能力。基于其自然语言的理解和表达能力,与医疗结合,学习医学指南等专业规范,可以迅速地掌握对应的专业知识。其中,中文大模型可以解决“同词不同义”在医疗上的歧义性,实现精准的输出,为医疗辅助诊断提供更为全面的支撑能力。

同样,在工业检测和流程控制方面,大模型基于多元化输出能力,可以进行规范辅导、缺陷检测、流程指令生成一系列操作,降低错误率,提升生产效率。其中,中文大模型可以更好地理解复杂的专业术语以及流程指令逻辑,让输出更准确、严谨。

“在大模型通用性、泛化性以及降低人工智能应用门槛的优势推动下,人工智能也将会加快落地,形成新的机遇。”康波表示。(科技日报记者 陈曦)

标签:

相关阅读

精彩放送

今热点:甘肃日报_关于甘肃日报介绍

618档期 主播达人谁的“性价比”更高

中创化工冲A疑云 焦点热议

加服务即加钱 家政标准化变味了_世界快看点

圈地产业链 虚拟数字人的疯狂

今日蓝牙耳机佩戴须知(蓝牙耳机佩戴方法)

有时不能不这样想(关于有时不能不这样想介绍)

小米推出双磁超动态单元耳机 售价129元_焦点精选

与生物学有关的昵称(与生物学有关的职业) 当前短讯

全球热消息:90后的特点词语(90后的特点)

无线鼠标什么牌子好知乎(无线鼠标什么牌子好)

天天报道:集安法院开展“六一”公众开放日活动

VR野史(下):一部资本收割史|环球速递

天天快看点丨2022旗袍刺绣十大品牌排行榜_旗袍刺绣哪个牌子好

润建股份:截止至5月19日,公司股东户数为17,318户

全球热门:粤水电:预中标邵阳市洞口县分散式风电项目

齐黑瞎(黑瞎子岛为什么要一半)

天天要闻:离婚分居怎么认定

每日热文:国际象棋单机版手机版下载_国际象棋单机版中文

“神舟十六号”即将发射,18名航天员将飞向太空!附中国航天产业发展分析 天天亮点

索尼发布全景声回音壁HT-S2000,可智能生成3D环绕声场 | 科技前线 环球新资讯

兰州石化职业技术大学领导调研指导西固西校区保障房建设工作 环球热讯

打造金融科技人才的“向往之城”,上海有了全周期认证培育体系标准

焦点速看:敢于挑战,敢打硬仗!哈药六厂精益团队助力“换挡加速”

中南建设:控股股东累计被冻结1.76亿股 近期减持比例超1%|每日播报

北斗卫星系统服务_北斗卫星系统

60余名德国企业家赴赣觅商机 投资合同总金额逾2亿美元

聚杰微纤(300819):5月24日技术指标出现观望信号-“黑三兵”

镜头直击!海拔5200米,科考队员是如何工作的? 环球播报

搭平台、定清单 居家养老“北京方案”出炉

淘宝好价上线618 向中小商家倾斜流量|天天速递

业内大咖畅谈:火爆的AIGC在保险业想象空间有多大?|全球速递

中水渔业午后跌停 公司部分募集资金投资项目拟延期

全球新动态:机构今日买入这14股,抛售光库科技8391万元丨龙虎榜

环球消息!国家发改委:没有“国家补短板强弱项领导小组”相关机构,谨防上当受骗

“数实融合” 开启未来——数字化助力贵州实体经济高质量发展观察|全球观速讯

“烤玉米”最少点4份,诱导过量点餐!这些餐馆被罚

荣盛发展延期至6月6日前回复深交所问询函_环球播资讯

探馆2023中关村论坛:当“科技范儿”遇上“沉浸式”

当前消息!华联锌铟消防队获村民送锦旗

热点评!英语六级题型及分值_英语六级听力分值分配

Have to do with造句初二_have to do with造句_热消息

热议:农业农村部公示现代农业产业技术体系首席科学家和岗位科学家候选人

大连瓦房店大樱桃再获殊荣

每日热点:当赔则赔、把好事办好,保障赔偿请求人合法权益 司法赔偿请求时效司法解释6月...

全球头条:总投资超千亿元!北京面向社会资本公开推介149个大项目

山东高密:桑葚产业助农增收

“6·18”直播投放费用普涨 素人与头部谁更受宠? 全球今头条

券商研报违规再“吃”罚单 审慎性不足成典型问题

北京顺义:积极参展中关村论坛 彰显科技成果转化实效

热点聚焦:速腾发动机声音很大(新速腾发动机声音大)

苏宁易购与饿了么达成战略合作

天天即时看!2023年上海长宁区退休养老金何时上涨?具体调整细则何时出炉?

盛屯矿业: 盛屯矿业集团股份有限公司关于召开2023年第二次临时股东大会的通知-焦点关注

罗马诺:迪马利亚与尤文续约谈判破裂,今夏成为自由球员 今日最新

无惧问询函走出九连板 日播时尚“卖壳”背后存隐忧-天天最新

*ST榕泰实控人高大鹏被留置并立案调查

滨江集团:为控股子公司杭州滨阳地产1.44亿元保函金额提供担保

【积分榜|14/15英超】穆二期蓝军再夺英超,你对这赛季有何印象?

Pear小梨生日单曲首发!《妈妈别哭》唱出对妈妈的爱

世界观速讯丨2023.05.24 星期三 视频新闻

农业农村部发布2023年农业植物新品种保护十大典型案例

如意集团:抗菌抗病毒可机洗毛精纺面料尚未进行大货生产_焦点讯息

刘宪华首次回应退出向往的生活,最后一季现身,黄磊反应让人泪目 全球报资讯

世界资讯:第五届中国国际茶叶博览会闭幕

客户、供应商疑点多 中创化工冲A胜算几何

希尔顿集团在华推出两新酒店品牌|天天亮点

问界·定制——法狮龙陆周良:发挥装配式内装产品优势 重塑整装竞争新格局 全球速看

凌云光: 关于自愿披露募集资金投资项目进展情况的公告

这些高级经济师考前夺分小技巧你要知道,再涨20分! 今日要闻

南宁市开展“交通执法体验日”活动-全球快播

天天视点!知乎-W(02390)2023年Q1财报:营收9.94亿 同比增长33.8%

永辉董事长张轩松:2023年推进阳光供应链建设、门店调优

同程旅行一季度营收同比增长50.5%

中国南北极考察队指定用车,传祺E9以硬实力驶进南北极无人之境

居家养老服务亮出“北京方案”

古井贡酒全国化覆盖率达70%

【新时代新征程新伟业——走在前列 实干作答】厚植沃土 “小巨人”释放大能量_天天微动态

视频:石家庄法商中等专业学校举办2023年成人礼仪式精彩花絮

穿裙子放屁裙子会飘起来吗_女孩穿裙子放屁_快看点

全球热议:交通运输部:渔船“鲁蓬远渔028”沉没

当前热讯:2023黄岛蓝莓节开幕 “田园宝山”乡村旅游消费季同步启动

【天天聚看点】一个智慧法治村的成长之路 打造数字治理“陂蓬模式”,“问题村”蝶变“...

世界快看:北京老年人居家养老需求公布:超三成用餐困难 日常照料需求旺盛

当前关注:中国农科院油料所:为山区油菜增收提供技术方案

北京大兴区多措并举 推动生物多样性保护迈上新台阶|视焦点讯

贵州贵酒瞄准大众酱酒推“贵州老字号”系列产品 环球热点评

环球今亮点!河南印发2023年惠农支农资金政策明白纸

好家伙!G2放出豪言:我们会战胜LCK两支战队,让LPL夺冠!|今头条

筠连县“三着力”提升公共资源交易服务效能

全球短讯!鸡上楼、猪连网!“智慧基建”助推畜牧产业高质量发展

冰雪时光上新咖啡系列,欢迎进店品尝

冒险岛_联盟的进攻 恶魔猎手能接到任务吗还是要指定那个职业

“JMA国际珠宝设计比赛2023”现正接受报名

冰雪时光&蜜雪冰城,下沉市场的两匹黑马

北京八维学院有哪些信息设计类专业?一文带你了解

5月24日老凤祥黄金585元/克 铂金365元/克

香港入境处调整签证申请流程 外佣及学生等须申报刑事记录 世界快消息

冰雪时光&蜜雪冰城,谁才是奶茶界的拼多多?

每日蝌学资讯 | 5年内,全球升温可能超过1.5摄氏度;长臂猿竟能靠“计划性”打败早餐竞争对手