模型“日日新”!中文语言大模型“商量2.0”多个评测基准综合表现超ChatGPT 当前速递
来源/东方IC
近日,商汤科技公布了自研中文语言大模型“商量 2.0”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果,“商量2.0”在三个测试集中表现均领先ChatGPT,实现了我国语言大模型研究的重要突破。
截至目前,已有近千家企业客户通过申请,应用和体验“商量2.0”的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量2.0”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。
(资料图)
图说:各语言大模型在三个评测基准中的得分情况 采访对象供图(下同)
“商量2.0”综合能力超ChatGPT
商汤科技公布的评测结果,选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval,结果显示“商量2.0”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT-4的水平。
图说:图中粗体表示结果最佳,下划线表示结果第二
MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。在该评测中,“商量2.0”综合得分为68.6,超过了ChatGPT(67.3分),落后GPT-4(86.4分)。
图说:图中粗体表示结果最佳,下划线表示结果第二
AGIEval是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。该基准选取20种面向普通人类考生的官方、公开、高标准往常和资格考试,包括普通大学入学考试(中国高考和美国SAT考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等。在该评测中,“商量2.0”测出49.91的分数,再次超越ChatGPT(42.9分),仅次于GPT-4的56.4分。在其中一项评测子集中,“商量2.0”以58.5分仅微弱差距落后GPT-4(58.8分)。
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。面对C-Eval评测基准,“商量2.0”拿到了66.1的分数,在参评的18个大模型中,仅次于GPT-4(68.7分),全面领先ChatGPT、Claude、Bloom等一众海内外大模型。
技术创新+应用落地 推动能力持续提升
今年4月,商汤正式发布“商汤日日新”大模型体系,以及自研中文语言大模型“商量”。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。
在“百花齐放”的市场格局中,通过对比成绩与表现,可以了解各大预言模型的特点与差异,并且直观地了解每个大语言模型当前的智能水平。目前“商量2.0”实现了对GPT-3.5超越,并且随着商业化落地的推进,在众多行业、场景中发挥令人满意的作用。
例如在需要大量文案工作的场景中,“商量2.0”可以协助处理各类文章、报告、信函、产品信息、IT信息等,进行编辑、重写、总结、分类、提取信息、制作Q&A等,有效提高企业员工的生产效率。在客户服务场景中,“商量 2.0”还可以扮演许多不同的企业角色,如银行客服、给孩子讲故事的绘本老师等等,并进行顺畅的交流和互动,提升客户体验。
此外,“商量2.0”还拥有广泛的知识储备,能够结合企业自身所在行业的专有数据,非常高效地打造满足企业需要的高阶知识库,帮助实现更智能化的知识库管理。“商量2.0”还是高水平的AI代码助手,能够极大帮助提高开发效率,实现新的“二八定律”——80%的代码由AI生成,20%则由人工生成。
据悉,商汤大语言模型能力的提升源于更多高质量中文数据的训练学习,得益于团队在底层大模型技术上的不断创新。商汤团队在训练阶段采用自研的一系列增强复杂推理能力的方法,以及更加有效的反馈学习机制,让大模型增强推理能力的同时,减轻了传统大模型的幻觉问题。
新民晚报记者 郜阳
【延伸阅读】商汤大模型体系“日日新”带来什么惊喜?和ChatGPT之类比“会有一点差距,但可以很快追上。”
标签:
相关阅读
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
推荐阅读
-
模型“日日新”!中文语言大模型“商量2.0”多个
根据评测结果,“商量2 0”在三个测试集中表现均领先ChatGPT,实现了我更多
2023-06-22 09:40:06
-
好消息!渝昆高铁华福特大桥建设进度条更新了
6月21日,重庆至昆明高速铁路(简称“渝昆高铁”)川渝段取得重大进展更多
2023-06-22 09:11:31
-
环球今亮点!台湾省籍青年方浩旭:盼祖国早日实现
团十九大台湾省代表团代表方浩旭接受中青报·中青网记者采访,他表示将更多
2023-06-22 09:10:25
-
诗意中国 | 五色新丝缠角粽
五月榴花妖艳烘,绿杨带雨垂垂重。更多
2023-06-22 08:59:28
-
南方地区有大范围持续性强降水 华北黄淮将现持续
22日至25日,江南大部、华南西部等地将出现大范围持续性强降雨过程,其更多
2023-06-22 08:45:31
-
天天最新:高温日历出炉!北方多地将现今年来最长
6月21日至28日,华北、黄淮等地新一轮高温天气卷土重来,多地将现今年更多
2023-06-22 07:49:21
-
今年端午假期,呈现哪些新趋势? 世界新资讯
今年端午假期,文化味道渐浓,更与避暑游相连。更多
2023-06-22 08:01:42
-
震撼!中国人的赛龙舟有多燃
“古老东方,龙腾气象。风雨同舟,山河无恙。端阳祈福,岁岁安康。”20更多
2023-06-22 08:04:51
时尚热图
热门标签
精彩放送
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-22
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
06-21
-
今日必看
-
精彩话题
-
最新见闻
- 视频 | 搏击、瑜伽、舞蹈……上海这个街道把公益“夜课堂”送进写字楼|当前焦点
- 天天实时:领益智造:终止筹划发行全球存托凭证 拟发行可转债
- 怎么对走私淫秽物品罪进行认定
- 焦点速读:渤海租赁:AALL拟向空客公司采购20架A330NEO系列飞机
- 紧扣服务实体经济核心 恒丰银行频打供应链金融业务创新牌
- 热门线路和车站增开列车 确保端午假期旅客顺利出行 天天报资讯
- 焦点速递!【短讯】俄外交部:没有意外的话 黑海粮食协议将于下个月结束
- 国家外汇管理局:5月我国外汇市场总计成交21.58万亿元|每日讯息
- 龙舟竞渡燃端午 多地举行丰富多彩的活动
- 多地出现青少年群体滥用“笑气”等未列管物质 严重侵害青少年身心健康
- 团代表故事丨00后姚少华:小小年纪返乡种菜,成青年致富带头人-环球报资讯
- 注意!领益智造将于7月12日召开股东大会|全球关注
- 聚焦:张家港市大新镇开展宗教场所消防安全应急演练
- 【短讯】人社部:各地要组建速裁庭,优先受理农民工工资争议案
- 当前观察:太空“炼丹”捎回“伴手礼” 空间站高温材料科学实验样品在上海交接
- 世界今日报丨福州福清:传承“福”文化 粽享端午情
- 热门看点:钧达股份:董事长陆小红拟减持不超157.2838万股公司股份
- 北京市经信局王磊:从五方面发力 加快建设全球数字经济标杆城市
- 新消息丨紫元元(08223.HK)6月21日收盘跌6.25%
- 夏至丨流光半夏 美好日长
- 播报:浙江启动防汛Ⅳ级应急响应 梅雨季进入强降水集中期
- 【短讯】AI板块被指“集体毕业照” 疯狂的动漫游戏ETF近乎跌停
- 中央气象台6月21日18时继续发布暴雨黄色预警
- 证监会发布《关于深化债券注册制改革的指导意见》《关于注册制下提高中介机构债券业务执业质量的指导意见》
- 盛达资源:财务总监邓启恩辞职|环球视点
- 全球消息!国家药监局启动药品安全巩固提升行动
- 观天下!威海市商业银行成功落地碳减排支持工具贷款
- 中电港:萤火工场的CEK8902-S905D3主板已经开始线上销售_环球看点
- 全球新消息丨【短讯】独家!蚂蚁集团透露大模型研发进展 AI “百模大战”再添重磅选手
- 天天信息:端午将至 公安部发布端午节假期道路交通安全预警
- 双一科技:公司复合材料产品目前尚未在机器人相关产业链应用-全球聚看点
- 房贷“降息”:央行下调5年期以上LPR至4.2% 世界播报
- 每日信息:东诚药业:控股子公司蓝纳成拟增资扩股引进投资者
- 1-5月快递业务量同比增长17.4% 世界时快讯
- 女生端午带红绳好吗2023 全球热头条
- 常熟银行:副行长兼财务总监尹宪柱辞任 辞任后将不在本行任职-全球观天下
- 南京通报四起违规吃喝典型问题
- 全国铁路将实行新的列车运行图 铁路客货运输能力进一步提升
- 天天视讯!金山区2023年批次共有产权保障住房选房工作率先在全市开展
- 环球报道:存款利率降了,对我们有哪些影响?
- 承德露露股东户数连续3期下降 累计降幅8.13%
- 亿缕阳光|龙舟破浪“粽”安康 全球新动态
- 公益微视频|珍惜粮食,你我有责
- 创维数字跌停 机构净卖出6465万元 焦点速讯
- 毛利小五郎跟小兰(毛利小五郎浴室搞小兰)
- 教育部公布第三批全国儿童青少年近视防控试点县(市、区)和改革试验区遴选结果名单|焦点热闻
- 东方生物:取得3款主要产品的境外认证
- 还在“海投”找工作?大学生求职不只这一条路 | 青年茶座
- 环球微速讯:“颐养食堂”让村里老人“食无忧”
- 当前速看:移动魔百盒怎么刷成网络盒子
- 全球850亿美元“重仓”电动化 在华合资企业裹足不前
- 世界快讯:东阿阿胶被强制执行1041万余元
- 教育部部署做好2023年普通高校招生录取工作|当前视讯
- 今日快讯:央行组织召开金融系统座谈会 研究交流金融系统审计整改有关工作
- 焦点快看:【金融街发布】外汇局:1-5月中国外汇市场累计成交101.87万亿元人民币
- 商务部:6月12日至18日食用农产品价格略有下降
- 世界热门:斯泰兰蒂斯召回部分进口全新大切诺基4xe汽车
- 天天热消息:医疗服务覆盖边远牧区
- 外汇局:1-5月中国外汇市场累计成交101.87万亿元人民币|每日速看
- 狗尾草编小兔子手镯_狗尾草编小兔子怎么编_观热点
- 黄河调水调沙正式启动 发挥巨大社会、经济、生态效益-通讯
- 易点天下最新股东户数下降11.76% 筹码趋向集中-全球聚焦
- 快消息!特斯拉敦促美国环保署 学学加州 赶紧对重型车的排放设限!
- 收藏!官方发布高温热浪公众健康防护指南
- 每日报道:注意!水发燃气将于7月10日召开股东大会
- 数读科创板IPO|芯旺微:主营车规/工业级MCU 产品已获比亚迪、理想、大众等应用 热点在线
- 每日观点:6月22日至24日,端午期间北京地铁8号线什刹海站封闭
- 北京交警:中考期间送考车辆尾号限行违法不作处罚
- 橄榄球励志视频永不放弃_橄榄球励志视频
- 全球百事通!全国移民管理机构半年缴获毒品4.74吨 有力遏制境外毒源危害
- 华神科技涨停 拟关联收购博浩达100%股权并配套募资_焦点速看
- 全国最长城市高铁隧道!南通至宁波高铁苏州东隧道首个基坑开挖 通讯
- 6月赚钱效应回升 私募后市研判更趋积极 每日快报
- 人民银行开展1450亿元逆回购操作 中标利率1.9%
- 冒险岛骑士团有哪些职业_冒险岛现在到底有哪些职业 环球新视野
- 炊桂_关于炊桂介绍
- 中金普洛斯REIT:仓储物流业动静之间皆蓄能-信息
- 【环球快播报】国家外汇管理局局长潘功胜会见淡马锡董事长林文兴
- 滚动:蚂蚁消费金融4名董事任职资格获核准
- 深度体验讯飞星火认知大模型V1.5版:功能多重升级,多终端布局方便使用_当前报道
- 乐高星球大战死星 从舢板到死星的舰娘养成系统 短讯
- 每日快播:美媒:拜登又放风,称美国总统气候问题特使克里将很快前往中国
- “红旗渠四代”李媛:太爷爷当年修渠奉献 重孙女如今“讲”渠为荣
- 当前热门:铮铮誓言表决心,上海市公安局杨浦分局举行入党宣誓仪式
- 天天热头条丨N威士顿首日涨78.69% 成交8.45亿元
- 塞尔达传说王国之泪黄昏之勇者帽子有什么效果
- 汪梅方
- 天天快看点丨@深圳人 端午出行指引来啦
- 全国首宗个人破产重整案执行完毕|天天速递
- 德邦证券给予隆华科技买入评级 靶材龙头公司 新材料业务势头向好_热议
- 流产不可避免深入了解自身情况的重要性
- 应急管理部公布一批“一案双罚”典型执法案例
- 当前快看:2023年国际划联龙舟世界杯今日开赛
- 光大银行董秘答上证报:确定未来三年股东回报规划 现金分红比例由不低于10%提升到不少于20%|热点在线
- 天天视点!汤臣倍健:目前成本波动预计对整体毛利率影响在1个点左右
- 市场震荡分化 人工智能行业需求激增 焦点速读
- 黄河启动2023年主汛期前调水调沙 增大干流主槽行洪能力
- 当前通讯!【高端访谈·银行助实体】深挖产业“护城河” 勾画发展“上扬线”——访云南红塔银行行长张振民
- 中央纪委国家监委:广东移动副总经理葛磊涉嫌严重违纪违法_世界微资讯
- 盛讯达:拟收购控股子公司宇瑞科技剩余股权