文心一言VS天工大模型，究竟谁才是国内“首个”ChatGPT？

极客号 • 2023年 4月 26日 21:18 • 业界 • 阅读 103

ChatGPT 国内免翻版！免费 AI写作! 史上最全 AI模型！ ECS服务器5折起！虚位以待

最近，昆仑万伟和百度因为最近大火的大语言模型“联手”了。

4月17日，昆仑万伟正式启动“天宫”大模型，并于当天开放测试邀请。当时昆仑万伟的对外宣传语言是“中国第一个真正实现智能出现的国产语言模式”

有意思的是，百度发布文心的话时，其输出的宣传语言是“国内第一家做大语种模型产品的大型科技互联网公司”。

表面上看，两家公司的宣传中心不一样，用词也不一样。看似平静，其实核心是在争一个“第一”。

为什么要争“第一”？除了能力比较和市场竞争，还具有搞活股价、提高市值的功能。百度新闻发布当天，港股股价上涨15%，昆仑万伟也是如此。官方公告第二天就达到了7.68%。

然而，谁是中国第一？

从项目的披露时间来看，百度从去年9月份左右开始在内部推广文心依依项目，并于今年2月初正式发布该项目的消息，3月中旬正式向国外官方公布文心依依。

昆仑万伟官方并未公布具体项目开工时间，但从2020年开始，昆仑万伟已经开始布局AIGC领域。

从技术角度来看，文心的话背后，是百度在人工智能领域的四层架构和全栈布局，包括底层芯片、深度学习框架、大模型和顶层搜索应用。此外，在人工智能领域深耕多年的百度，拥有工业级知识增强文学模型ERNIE，具备跨模式、跨语言的深度语义理解和生成能力。

昆仑万伟也有大模型四要素:数据、计算能力、算法、大参数语言模型。按照昆仑万伟的说法，天宫是双千亿参数训练的结果——千亿预训练基地模型和千亿RLHF模型。

不过既然两家公司的基础能力似乎不相上下，我们就把两家公司放在一起，试试“内功”。

01。

汉语语义理解能力

昆仑万伟对外展示的技术路径是现实的。引入模型卡罗搜索树算法后，天工团队在语义理解和话题转换方面的能力有所提升。

在这样的背景下，我们先和天宫玩了成语接龙游戏。但是天宫的完成度不好，连成语接龙是什么都不懂。

成语接龙中文心词的表现优于天宫模型。

接着，我们向文易欣颜和天工大模抛出了一个问题——“写一篇类似《人间世》的宏大主题、展现中国历史变迁的小说提纲，1000字左右。”对于这个问题，文心怡和天工都把问题的焦点放在了“宏大主题”和“历史变革”这两个关键词上。

结果两家公司产生的内容并没有达到我们最初的预期。

上图是“天模”，下图是一个字。

这个问题，也许是因为我们给了一定的误导，所以两个学校产生的答案都不尽如人意。但天工比文心的文字略胜一筹，因为文心直接把“历史的变迁”解释为朝代的更替。

天工的回答虽然也是文不对题，但是有人物有朝代，内容的可操作性和延展性明显比文心的话强。

把问题拉回到类似《在人间》的小说大纲，我们换了个提问的角度，接连写文章:《在人间》讲了一个什么样的故事，那你能不能写一个类似题材的小说大纲？1000字左右。

天工的表现在提取重点、联想写作、话题的连续性等方面都不错。

但是，文心一句话就“开了个小缺口”。

文心一个字的回答明显错了。但是，我们再次把问题抛给文心，重新生成了答案。这一次，文心回归正轨，给出了相应的答案。

另外，我们也用三个连续的问题来问天宫。此前，我们在“大评测！ChatGPT，文心伊彦和巴德，谁更强？”，把同样的问题给文欣怡，巴德，还有ChatGPT。

可以说，天工对前两个问题的回答与文心之前的回答不相上下，但对最后一首藏头诗的理解还是有些偏差。

虽然文心的藏头诗答得不好，但好在文心一个字就明白了“藏头”的意思。但天宫似乎还没有消化“藏头”的意思。

02。

逻辑思维能力

为了测试“逻辑推理”的能力，我们向天宫和文心抛出了这样一个问题，那就是“如果猫能爬树，狗也能。”

上图是“天模”，下图是一个字。

显然，天宫和文心也陷入了对题目的误解，或者说没有完全理解题目的意思。不过这里需要强调的是，在公布的视频中，关于鸡兔同笼的问题，文欣怡和天工都有不错的表现。

在温燕的记者会上，李彦宏就“鸡和兔子在一个笼子里”的问题向文新提问。《文易欣言》在题目数据有误的前提下，通过推理证明题目有问题。

这里需要注意的是，在这个逻辑推理中，ChatGPT的答案是天宫、文心伊彦、巴德四个模型中唯一正确的一个，并指出了猫和狗的区别，证明了猫会爬树，狗不会。

除了测试逻辑能力，我们还会推测一个哲学问题，给天宫和文心发消息。

上图是“天模”，下图是一个字。

在哲学问题的理解上，天宫和文心差别不大，文心有点“人文”。看完之后直接告诉我们该怎么做，更像是在和人说话，天宫的回答也更认真。

可以说，和天宫对话就像和老师对话，需要老师回答这个问题是什么。和文心对话更像和心理医生对话，需要在解释的基础上给出建议。

03。

编程能力

为了测试这两个模型写代码的能力，我们问了一个很简单的问题——X+2 = 5，y-3=7，输出x+y是多少？我们用java做了一个简单的程序，得到了结果。

上图是“天模”，下图是一个字。

但显然，这两个模型给出的结果是有问题的。

不过，在其他评测稿件中，文严和天工在编程能力上的表现并不差。我们认为，目前这些大模型的能力并不稳定，精度需要在不断的训练中提高。

04。

结论

综上所述，文心的能力比较小，无论是文字还是大自然的壮举。但更多的问题是，目前大模型每次生成的问题答案都存在一定的误差。

相对于“第一”之争，我们认为企业更重要的是提高大模型的能力和精度，找到更合适的场景实现商业化。

大模赛道越来越热，大家都想做风口上的猪，但风口上能起飞的猪往往都是有备而来。

另外，要给国内的科技企业更多的信心。与国外的ChatGPT4相比，国内的大型车型还有一定的差距，但相信在不久的将来，这种差距会在竞争中逐渐缩小。国产大车型，未来可期。

本文内容及图片均整理自互联网，不代表本站立场，版权归原作者所有，如有侵权请联系admin#jikehao.com删除。

赞 (0)

苹果 Mac App Store 充斥大量虚假的付费 ChatGPT 应用

上一篇 2023年 4月 26日

周鸿祎：未来每个城市都会有自己的专有GPT

下一篇 2023年 4月 26日

游戏开发者纷纷自曝“黑历史”力挺因早期画面泄露而被横加指责的R星
在 Take-Two 和 R 星为《GTA 6》代码泄露搞得焦头烂额的同时，一些人却用相当苛刻的语气，对该游戏的早期演示画面横加批评。对于不明真相的吃瓜群众们来说，当前流出的内容确实与成品应有的质量想去甚远。但为了帮 R 星挽回不…
极客号
2022年 9月 23日
0
苹果因4G专利面临70亿美元赔偿或推出英国市场
苹果公司涉嫌侵犯了包括iPhone和iPad在内的设备的两项电信专利，伦敦上诉法院周二裁定，驳回了这家科技巨头在与美国专利持有人的长期纠纷中的上诉。总部位于德克萨斯州的Optis…
极客号
2023年 7月 5日
0
推荐8个CSS框架创建吸引人的网站
当我们开发构建复杂的网站时，使用CSS进行样式化对于开发者来说会变得枯燥，我们需要代码更少、功能更多的样式。这就是CSS框架被构建和使用的原因。以下是八个最佳框架: 材料界面网…
极客号
2022年 12月 22日
0
福建一小学开设性教育课：男生上台学用卫生巾
大家当初的生理卫生课都是怎么上的？80后、90后绝大部分过来人应该都是自习的吧据白鹿视频，9月23日，在福建福州一所小学开设的性教育课堂上，老师教学生如何使用卫生巾，男生也举手主动上台学习使用方法，学习、讲解都非常到位。有网友称赞…
极客号
2022年 9月 26日
0
小米首款血压手表！小米腕部心电血压记录仪官宣
快科技10月25日消息，明晚的小米发布会上，不仅要推出小米14手机，还有多款重磅旗舰产品将登场。刚刚，小米官方正式宣布了首款血压手表小米腕部心电血压记录仪。从公布的外观图来看，…
极客号
2023年 10月 25日
0
淘宝十一月份有什么满减活动
喜欢网购的小伙伴对于淘宝平台每个月的促销活动也都十分感兴趣，尤其是跨店满减优惠最能吸引消费者参与。那么，淘宝十一月份有什么满减活动？随着十一月份马上就要到了，对于这个电商促销月大家…
极客号
2023年 8月 24日
0
出手就是王炸！柯尼赛格推出“暗物质”电机可输出800马力仅重40千克
快科技7月20日消息，近日，瑞典著名超级跑车制造商柯尼赛格推出了一款号称暗物质”的超级电机。从图中我们看到，该电机全身被碳纤维包裹，官方表示，该电机最大马力可达800匹，峰值扭矩…
极客号
2023年 7月 21日
0
真我激进：潜望长焦做到2000价位苹果三星只有万元机才配潜望
快科技9月27日消息，博主数码闲聊站透露，真我骁龙8 Gen3旗舰安排了潜望长焦，还有一款2000元价位的新机也配备了潜望长焦。在部分手机厂商眼里，潜望长焦配置仅限超大杯版本，像…
极客号
2023年 9月 27日
0
浙江一学区房卖270万只有铁架子网友：这是抢钱呢
有网友爆料某中介发布的温州学区房信息。这房子看起来很丑。根据网友提供的图片可以看到，这个“房子”只有半面砖墙和几个破烂的铁架子，只剩下马桶和面盆来标识卫生间，根本没有房屋结构。房子…
极客号
2023年 3月 30日
0
Bing 在搜索结果中添加 AI 生成的标题
极客号（Daydx.com）11月16日消息:Bing 现在正在利用人工智能生成一些搜索结果的标题。Bing 宣布，它正在使用 GPT-4技术，以使搜索结果更相关和有信息量，帮助…
极客号
2023年 11月 16日
0

合作联系：1152QQ041010