当前位置：首页 > 业内资讯 > > 正文

腾讯大模型的绝活，居然是发布会上没吹的写代码？

2023-09-09 13:00:51 来源：差评

就在昨天腾讯的全球数字生态大会上，腾讯大模型混元终于亮相了。

为什么要说终于？

(相关资料图)

在各方消息看来，除了像小米这种说不打算做大模型的之外，绝大部分大厂们基本都已经陆续上线过大模型了。

其实，腾讯自己也在 6 月中旬就推出了自己面向 B 端行业的 MaaS （ Model-as-a-service ，模型即服务）解决方案。

方案中包含了很多行业大模型，只不过当时腾讯的通用大模型依旧还很神秘。

后续的各种消息、报道里，腾讯也在内部不断打磨混元大模型。

所以这也让差评君对混元的期待值，越来越高。

毕竟上一个用 "hun yuan " 名号的，可是打了一整套闪电五连鞭。

话不多说，下面就开始新一轮大模型测试。

本次测试和混元同场竞技的是，大模型界的老学长 ChatGPT。

整个测试环节将分：常规语义理解、复杂问题理解、连续对话与角色扮演能力、学习能力、代码能力、数学能力、长文总结，以及大家喜闻乐见的弱智吧问答等 8 个维度。

这次我们一反常态，把长文总结能力的测评放在了第一位。

因为我们让大模型总结的，就是这篇测评本身（除长文总结能力部分）。

至于能不能当成省流版，往下看你就懂了。

混元的总结非常精练，但过于精练，以至于我很难从这个总结得出有效的信息。

但当我让他展开讲讲的时候其实还行，但可惜无中生有了 " 长文总结 " 这个模块。

而 ChatGPT 由于输入字数限制，被我人为分成了两部分输入，不确定这有没有没影响它的总结能力。

在回答中，它莫名克扣了对自己的所有评测，甚至没在总结里写出混元的数学能力、弱智吧问答挑战和差评君的观点，也不好用。

向上滑动

看来，这俩大模型总结得都没那么完美，想看看两家到底什么水平，大家还得仔细往下看正文。

首先我们做的测试是常规的语义理解问题。

问题是理解 " 原来谁都看不上，现在谁都看不上 " 。

这句话混元理解得挺好，基本解释了我对单身这事的调侃，两个 " 看不上 " 都解释上了。

但 ChatGPT 说的依旧很 ChatGPT ，说最多的话，犯最蠢的错。

他本来解释得相当到位，特别是分析这句话是用幽默的方式来调侃单身，还带着一丝无奈情绪，很高级。

但它完全没品出这前后两个 " 看不上 " 里，带有反转的幽默感，遗憾。

向上滑动

接下来我们看混元的复杂问题理解能力。

问题是魂穿到官渡之战中袁绍身上，时间节点是骂完许攸之后。

既要回答怎么破局赢下官渡之战，还要提供进一步统一全国的规划。

要给大家稍微讲下这题为啥是复杂提问。

因为要回答这题，首先得熟悉三国这些人物历史背景、相关故事，特别是骂完许攸这个时间节点很微妙。

因为在这之后许攸投靠曹操，献计火烧袁绍囤积在乌巢的粮草。

最终以少胜多击败袁绍，随后几年内彻底吞下冀北逐渐统一北方。

而进一步设想里的统一全国，更是曹操本人都没能实现。

所以大模型们要完美理解并回答这个问题，那网文作者们基本可以宣告失业了。

AI 浪潮下的网文作者现状

经过测试，两个大模型的回答都很一般。

从一开始，二者都没能理解自己穿越扮演袁绍角色的指令。

混元急哄哄地给袁绍出主意， ChatGPT 则是以为我要穿越，教我做事。

至于两个给的回答，既没有 get 到我提出这个微妙时间节点的用意，也没有什么行之有效的战略规划，都是些泛泛而谈的车轱辘话。

相对而言，个人感觉混元的稍胜一筹。

毕竟 ChatGPT 可是希望袁绍去和曹操建立互利共赢的关系，哈哈哈。

向上滑动 ▼

既然一个复杂指令两个考试都理解不好，那干脆简单点，让两者去角色扮演一个婚礼主持人，一点点诱导进行连续对话。

结果立马就能发现混元和 ChatGPT，就像理科生和文科生的区别。

混元的回答简单不啰嗦，但有的时候过于生硬。

你说有错吧，谈不上，你要说给高分肯定不可能。

而 ChatGPT 就是不管对不对，先把字写满再说。

看里面的描述啥的都很好，但其实从中间就已经理解错意思，搞混了我的意图。

所以两者都不完美，都有待改进。

向上滑动 ▼

然后我们还重点考验了下大模型的文字学习能力。

搬出了当年的火星文，给两个考生上上强度。

先是丢了一篇火星文版的朱自清《背影》名场面给大模型学习。

然后让他们分别用这种风格写一篇养金毛心得。

结果就是，混元不愧是本土大模型，背靠火星文鼻祖发源地 QQ 空间就是有优势，火星文的熟练度相当不错。

第一眼就悟到了火星文的精髓，非常顺利地学习了火星文的创作手法。

而 ChatGPT 虽然意识到火星文是一种不标准的中文形式，但他实在学不会这种方式，最后甚至直接承认自己不行了。

接下来就到了代码能力的考核。

这次出的题目是，写一个现代极客风格的 925 活动抽奖页面，页面中必须有醒目的 925 标志。

说起来，因为混元发布时对代码能力基本没咋提，所以本来我们对混元的代码能力没啥期待。

但论这个题目，混元的效果相当不错，黑白配色的极客风有了，页面逻辑也没啥问题。

甚至还预留了给我们替换 logo 的位置满足我们有 925 醒目标志的区域，相当成熟。

对比之下， ChatGPT 甚至把极客风理解成了 925 极客活动。。。整个抽奖界面也非常毛胚。

混元页面效果

ChatGPT 页面效果除了代码问题，数学就是另一个大模型的老大难了。

这次我们也挑了不少数学问题给两个考生做，从小学 1 年级一直做到了初一。

最终混元大模型在六年级时挑战失败，到了初一开始胡言乱语，也让我们彻底放弃测试了。

而 ChatGPT 明显还有余力。

5 年级测试题 向上滑动

6 年级测试题向上滑动 初一测试题向上滑动 当然，最后也少不了网友们喜闻乐见的 " 弱智吧 " 精选套餐。

这次我们更新了题库，用上了今年上半年最新的弱智吧精选问题，我们发现可能 AI 最后的图灵测试可能还真是弱智吧。

因为在大部分测试里，混元和 GPT 基本都不够弱智而无法正确理解问题，这点上，人类遥遥领先！

向上滑动

除了以上这些常规测试外，混元发布会后的媒体采访上，很多媒体也在询问腾讯这么晚掏出大模型，那和市面上的竞品们有什么优势。腾讯方面则是说，混元大模型在大模型饱受诟病容易受诱导、典型的大模型幻觉（胡言乱语）等通病上，有了针对性的改善。

所以我们在实际测试时，也专门留心感受了这两块内容。

不得不说，混元的大模型幻觉减少较为明显，这大概也和他惜字如金有关系，毕竟说多错多还是很有道理的。

但容易受诱导这方面的改善其实并不明显，一些该跳的坑还是很难避免，只能说千防万防，人心难防。

而且作为一个刚上市的大模型，一些小问题比起同期早已发布的前辈们还是有待改进。

比如" 重新生成 " 答案经常性会失灵，甚至有的时候重启重新输入问题都没法解决。

而当你发现混元说错了某个回答希望他改正，他总是倔强地虚心认错，死不悔改。

还有就是，他对一些比较简单的提问，反而有时候会抽风，有点像抓关键词一样作答，很让人抓狂，只能不停修改提示词才会好点。

再吹毛求疵一点的话，这个生成问题时的头像动效，有种二胡卵子的异样美感，咱也不知道这是高级呢还是可爱呢？

这些小问题其实还挺频繁，真要列起来又有点太稀碎，大家还是自己体验后会有更深刻的理解。

不过这些小毛病，后续的更新迭代倒也简单，等用户数多了，相信很快就能优化。

总的来说，混元和 ChatGPT 在中文环境下的 PK 中，二者其实水平差不多，放到国产大模型梯队里，也能有个平均水平。

只是在用了这么多大模型后，我们感觉混元特别之处是给人的感觉，它更像个理工科直男，主打一个废话少说。

而 GPT 为首的其它大模型们则是典型的文科小编，主打能水就水，油多不坏菜。

而这种感觉也更贴合腾讯对混元大模型 " 实用级 " 的定义。

毕竟谁也不想在急着用的时候还要在长篇大论里找关键信息吧。

那对于差评君来说，混元大模型更让人期待的，反而是和腾讯旗下应用的深度融合。

现在大家手里没个七八九十个腾讯系应用，都不敢说自己在互联网上冲浪的。

虽然眼下，我们在发布会上只看到了腾讯会议、腾讯文档里们的进化。

但在这些办公软件之外，腾讯系里游戏、社交、影音等等，才是更和大家休闲快乐相关的业务。

在这些领域，大模型的未来会是什么形式、什么程度的结合，才更是大家所最期待的。

更关键的是，在其他大模型还在苦苦尝试怎么和业务、和已有应用的结合上，腾讯却已经有了成功经验。

此前腾讯多模态 AI 大模型率先被应用在广告投放，当时累计给广告主带来 15% 的 GMV 提升。

所以，被网上吐槽的最晚发布大模型的大厂，这么看起来好像也不是什么飞龙骑脸的天崩局面。

好饭不怕晚嘛。

/div>

标签：

上一篇 : 甘肃兰州：今年购买新建商品房可享受50%契税补贴

下一篇 : 最后一页

腾讯大模型的绝活，居然是发布会上没吹的写代码？

就在昨天腾讯的全球数字生态大会上，腾讯大模型混元终于亮相了。为什么

甘肃兰州：今年购买新建商品房可享受50%契税补贴

证券时报网讯，据兰州发布微信公众号，甘肃省兰州市近日出台《关于进一

国家统计局：2023年8月份CPI同比由降转涨 PPI同比降幅收窄

国家统计局今天发布了2023年8月份全国CPI（居民消费价格指数）和PPI（

今年前8个月郑商所累计成交量约25亿手同比增长64%

新华社郑州9月8日电（记者唐健辉、李文哲）今年前8个月，郑州商品交易

时政微视频丨瞰黑龙江

时政微视频丨瞰黑龙江五光山色翠影满湖冰雪分辉林深鹿鸣沃土锦粮日华霞

大学军训内容及项目讲解（大学军训内容）

大家好,小乐来为大家解答以上的问题。大学军训内容及项目讲解，大学军

四川：大学校长金句来了哪一个最能打动你？

封面新闻记者何方迪周丽梅秋风送爽，拂去夏日燥热，又是一年开学季，四

步辇图与哪位帝王有关联步辇图与哪位帝王有关

1、唐太宗。相信通过步辇图与哪位帝王有关这篇文章能帮到你，在和好朋

柯力传感：拟取得华虹科技控制权，布局和拓展矿井物探领域

柯力传感9月8日公告，公司拟使用自有资金6500万元，通过福州华虹智能科

数字赋能，外滩大会展现智慧医养场景

2023INCLUSION·外滩大会在上海黄浦世博园区召开，本届大会主题为“科

江苏开展公路水运建设领域优化营商环境行动

近日，江苏省交通运输厅印发《全省公路水运建设领域优化营商环境行动实

证券板块涨0.41% 华西证券涨3.44%居首

证券板块涨0 41%华西证券涨3 44%居首

科创板收评：北斗导航、华为星闪概念股联袂大涨 N中巨芯上市首日收涨182.05%

《科创板日报》8日讯，今日，科创50指数全天震荡，收涨0 19%，报901 51

毛衣袖口太长如何改小窍门（毛衣袖口太长怎么改小视频）

1、如果发现毛衣袖口松了。先用70-80度的热水浸泡毛衣的袖口，然后清洗

海豹DM-i上市，尺寸达到主流B级车水平，16.68万起售

众所周知，比亚迪海豹本身的产品力就已经很强了，但是这并不是他的极限

晚安十点（2023.9.7）丨这个夏天结束前，让我们再看一眼《乐夏》里的广西范儿

南国早报全媒体记者：刘豫夏天夏天就要悄悄过去在我们开始感受到空气里

男性也要接种HPV疫苗吗

相信大家对于HPV疫苗应该不陌生，接种HPV疫苗是目前预防宫颈癌最有效的

沪宁沿江高铁进入满图试运行阶段

“多彩龙江”尽显龙江新材料产业前景

黑龙江展区。3D打印陶瓷材料展位。展区内各种石墨烯产品。先进钢铁材料

首创证券给予国能日新买入评级

首创证券09月01日发布研报称，给予国能日新（301162 SZ，最新价：63 89

早安新区丨全线开通，成都南宁7小时可达

早上好！下面小天带大家走进今天的《早安新区》5分钟速览天下事详细内

今日翠华山值得去吗（翠华山好玩还是丰裕口）

您好，来为大家解答以上问题。翠华山值得去吗，翠华山好玩还是丰裕口很

华测导航（300627）：8月31日北向资金减持13.18万股

8月31日北向资金减持13 18万股华测导航。近5个交易日中，获北向资金增

乌克兰2架Mi-8发生事故6名飞行员死亡

乌克兰军队的2架Mi-8型直升机在乌克兰顿涅茨克地区上空发生事故，6名飞

广东多地教育局通知，中小学开学时间推迟，家长要做好准备

广东多地教育局通知，中小学开学时间推迟，家长要做好准备,学校,中小学

名品世家副总经理王洪娟辞职 2023年上半年公司净利5649.85万

名品世家副总经理王洪娟辞职2023年上半年公司净利5649 85万2023 8 3119

全国首个文旅AI直播间在陵水启动

新海南客户端、南海网8月31日消息（记者利声富）面对元宇宙带来的新载

亚通精工(603190)龙虎榜数据(08-31)

沪深交易所2023年08月31日公布的交易公开信息显示，亚通精工因成为当日

华为悄悄上线高端手机Mate60Pro，“偷袭”苹果？

8月29日中午，华为在未正式发布的情况下，突然在华为商城上线Mate60Pro

河南平顶山：就鲁山县牛郎织女爱情主题雕塑一事，已成立联合调查组

据平顶山发布微信公众号31日消息，就广大群众关注的鲁山县牛郎织

珀莱雅(603605)：大单品+多品牌逆势高增品牌势能持续释放

都逸凡：市场做多情绪渐浓短期可适当把握结构调整机会｜微策略

都逸凡：市场做多情绪渐浓短期可适当把握结构调整机会｜微策略,都逸凡,

杨万里这首秋诗，简单有趣，读完心情大好！

每年的这个时候，河边的高柳中都会流出一种好听的“秋声”——蝉鸣

AI技术有前途，但客户信任要付出代价

近日，全球各大IT企业都在积极布局人工智能技术，但一项对来自25个国家

北京首批5款AI大模型产品通过备案上线今日起陆续向公众开放

新京报贝壳财经讯（记者罗亦丹）8月31日，贝壳财经记者从多位独立信源

维维股份08月30日被沪股通减持186.02万股

08月30日，维维股份被沪股通减持万股，最新持股量为万股，占公司A股总

记者：富勒姆为帕利尼亚标价6000万镑，拜仁认为太贵尚未出价

直播吧8月31日讯德国名记FlorianPlettenberg消息，拜仁尚未正式报价富

安徽阜阳到安徽合肥有多远合肥到阜阳有多远

0471房产来为大家解答以上的问题。安徽阜阳到安徽合肥有多远，合肥到阜

惠民一群众家正装修被干活工人“顺走”贵重物品

齐鲁网·闪电新闻8月30日讯俗话说“君子爱财，取之有道”，可偏偏就有

粤港湾控股上半年收入16.24亿元合约销售13.35亿元

2023年上半年，粤港湾控股实现合约销售约人民币13 35亿元，相比2022年

带着好奇心，每个人都能学好物理课

“月球正在逐渐远离地球。”——近日，在清华大学一堂特别的物理演讲上

教育部：严禁以竞赛成绩、考试证书、培训证明等作为招生入学依据或参考

原神解救海獭二任务流程介绍原神解救海獭二任务怎么攻略

原神是一款养成类型的动作冒险手游，在游戏里面玩家可以通过官方每个版

美网中国军团七战七捷！郑钦文送蛋横扫，王雅繁爆冷重回百大行列

女单焦点战中，赛会23号种子、中国金花郑钦文，对决阿根廷选手波多罗斯

福州博爱中医院有男科吗-福州哪里看男科比较专业

　　福州博爱中医院是福州男性患者承认的专业医院。如何成为一家好的福

江西景德镇可提供菲斯曼壁挂炉维修服务地址在哪

很多人对江西景德镇可提供菲斯曼壁挂炉维修服务地址在哪不是很了解那具

众志成城防汛救灾｜冲锋在前挑重担——国家综合性消防救援队伍防汛抗洪救灾综述

“对党忠诚、纪律严明、赴汤蹈火、竭诚为民”，训词铮铮，其心拳拳。今

1.7亿2签，重创英超豪门，悲喜夜，姆巴佩紧急空降，曼城坐收渔利

前三轮英超比赛，曼城无一例外的取得了胜利，但从比赛情况来看，多有坎

全国新生儿遗传代谢病筛查率超九成

搜索

X 广告

高层声音更多>

中国广电入局5G网络初步形成“有线+5G”的融合发展新格局

1中国广电入局5G网络初步形成“有线+5G”的融合发展新格局

2宁夏将村居法律顾问工作纳入法治政府考核

3雪从齐腰深到“没过头顶” 特大暴雪中的通辽紧急救援

4织密安全网出行更平安(建设更高水平的平安中国)

5中国天眼下，那些追寻星空的少年

6频现拼写、翻译等内容错误莫让词典类APP误人子弟

7北京市海淀区排查吉林病例密接 3地临时封闭

新闻中心更多>

1宝应农发行获批江苏省分行水利建设贷款项目2.2亿元

2北京海淀5人核酸阳性其中4人确诊1人为无症状感染者

3黑龙江省新增新冠肺炎本土确诊病例7例

4河南新增本土确诊病例13例新增本土无症状感染者5例

5河北新增确诊病例3例均在辛集市

6黑龙江新增本土确诊病例7例均在黑河市爱辉区

7辽宁新增21例本土确诊病例新增16例本土无症状感染者

专业建设更多>

成都抗疫的外籍志愿者：愿为城市“康复”贡献力量

青海西宁“抗疫”女警花：疫情不退警察不退

额济纳旗新增2例本土无症状感染者开启重点地区、重点人群核酸检测

成都“景美人更美”

云南威信发生4.3级地震暂无人员伤亡

协会介绍更多>

浙江省台州市：从文明出发让幸福落脚

没有视频监控、目击证人……工地上意外受伤怎么作证

吉林省吉林市：人民建城惠人民

银川一小区调整为低风险地区

北京朝阳连夜“快查严控” 采取果断措施阻断病毒传播链条

“双减”后教培机构存逼迫辞退等乱象员工如何维权？

郑州44.77万名低龄儿童接种新冠疫苗第1剂

X 广告

精彩放送

高技是什么学历企业是否承认高技是什么学历

家庭游猛增，出境游复苏，研学游火热！近年来“最火爆”暑期落幕

科蓝软件股东户数下降3.37%，户均持股9.7万元

若带上郭艾伦，中国男篮能出线吗？苏群的答案和球迷是一致的

柴油车显示OBD故障灯影响使用吗

新华保险上半年净赚近100亿增8.6%，保费收入增5%

清肺养喉：咳嗽痰多的饮食缓解方法

忠述‖北方人说的“上车饺子下车面”有什么说道儿吗？

诗歌百练：次韵答致政欧阳少师退居述怀二首（其二）（韩琦）

华西证券：给予富春染织买入评级

2比0+2比0，国米两场零封意甲唯一！800万铁卫回暖，穆帅获得强援

人间诡视寄生虫结局（寄生虫结局）

行李箱密码锁弹簧坏了怎么打开（行李箱密码锁弹簧坏了）

炎炎夏日，微胖女孩的精致穿搭新秘诀！

沃森生物：该数量包含江西省的中标

我市第十一届双拥运动会开幕

两位数乘法速算技巧视频教程（两位数乘法的速算技巧）

日本连续4天地震，福岛县附近海域今日发生4.8级地震

海南省青少年高尔夫球锦标赛圆满收官

国家金融监督管理总局漯河监管分局：引领辖内农合机构坚守定位聚主业提升服务助发展

看门狗断路器定值怎么设置（ZW32-12F看门狗分界开关断路器简介）

财通证券给予金宏气体增持评级，业绩增长稳定，综合性气体公司构筑核心竞争力

莱茵访学中国学人的德国记忆(关于莱茵访学中国学人的德国记忆简述)

市场竞争越来越大，资质将是企业突围的利器！

9月1日起卷烟涨价？中国烟草总公司辟谣

宁夏首届老博会专家谈｜康养旅居非常适合宁夏

舍得酒业面临增长乏力困境，百亿目标能否实现？|产业链情报站

全区94家，有些奶爸也能进，嘉定母婴室有新变化

康师傅发布中期业绩报告，方便面板块营收达139.5亿元

断链保护器的工作原理及重要性

蓝山：就业帮扶“小车间” 托起群众就业“大民生”

湖南卫视节目单今天节目单表_湖南卫视节目单今天

浙江，福建天气预报：台风“苏拉”跑偏，不再登陆，暴雨仍持续

售90.28-111.8万路特斯EMIRA重启预订

惠农网大数据平台迭代上新，打造农业全产业链数字化生态系统

菠菜炒肉丝(关于菠菜炒肉丝简述)

布朗尼先天性心脏病说法站不住脚，球迷猜测是过度放纵惹的祸

驻日美军基地多处水体有机氟化物超标冲绳县启动调查

普京回应特维尔州坠机事件

江西省景德镇市2023-08-26 13:39发布雷电黄色预警

美锦能源：公司目前已完成氢能较完整产业链布局

塌方致列车延误，女列车员情绪激昂安抚旅客呼和浩特铁路局：表现突出会有表彰

Neopets沉寂多年的经典Flash游戏又回来了

午评：沪指强势拉升涨0.63%，地产、券商等板块走强，传媒板块活跃

赏非遗，看比赛……在成都感受体育精神与中华文明交相辉映

专访焰火总设计师：空中看大运会焰火是巨形金芙蓉花

汽车整车股开盘走强海马汽车3连板

京港澳高速闫村段积水达30厘米致双向断路，该路段雨仍在下

腾讯大模型的绝活，居然是发布会上没吹的写代码？

高层声音 更多>

新闻中心 更多>

专业建设 更多>

协会介绍 更多>

精彩放送

高层声音更多>

新闻中心更多>

专业建设更多>

协会介绍更多>