“1024 直接对标 ChatGPT！”科大讯飞星火大模型立 Flag、一手实测来了

短短半年时间，在大模型赛道上，国内外AI头部选手带着他们的AIGC产品就位，开始奔跑。如今，谁能创造出中国版的ChatGPT已经不是问题了。然而，谁能在中国做出更好的ChatGPT版本，成为业界关注的焦点。

北京时间5月6日下午2点，科大讯飞作为人工智能“国家队”，如约揭开了其认知模型——讯飞Spark的真实面纱，并带来了丰富的应用成果，为中国生成式AI市场再添一员猛将。

目前，科大讯飞星火认知模型已经开始内测(https://xinghuo.xfyun.cn)。CSDN早些时候已经获得了内部测试。接下来，我们也将和大家一起探讨“讯飞星火认知模型”的真实情况，以及它的不同之处。

7大类481个细分任务类型，讯飞星火认知模型来了！

发布会上，科大讯飞董事长刘庆峰表示，认知大模型的技术台阶和快速进化，让人工智能在全球掀起了新的热潮。目前，认知大模型已经成为通用人工智能的“曙光”。同时，认知模式的“智能涌现”将为解决人类的刚需问题带来新的机遇。

具体来说，智能新兴的通用人工智能系统具有文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等七种能力。基于此，人类只要画龙点睛，就能获得“听懂你说的话，回答你的问题，创造你需要的东西，解决你的困难，学会你教的东西”的全部内容。

讯飞星火认知模型基于科大讯飞12年的技术积累，实现了通用人工智能系统七大能力中的481项细分任务。2022年12月15日，正式启动“1+N”认知大模型专项研究，其中“1”指通用认知智能大模型，“N”指大模型在教育、办公、汽车、人机交互等领域的落地。

对于先行者，刘庆峰说，“向OpenAI致敬，向它学习，快速赶上，努力超越”。

同时在现场目标明确，为2023年的讯飞星火认知模式树立了一面升级的旗帜:

6月9日，讯飞星火认知模型将突破开放问答，升级多轮对话和数学能力。

8月15日突破代码能力，继续升级多模态交互能力。

10月24日，讯飞星火认知模型将在通用模型领域直接对标ChatGPT，在中文维度超越。

话不多说，我们也会直接从七大能力开始测试模式。

编码能力:多功能和多语言

对于程序员来说，关注的焦点当然是大模型能为我们解决多少代码和编程问题。

来，先测试一下。

比如抓虫子。

写代码:“围绕“给定一个1-100的整数数组，请找出缺失的数字”写一个实现代码。

又一个递归函数:

挑战稍微难一点:“如何用C++编写一个复杂的计算器？包括加法、减法、乘法和除法、幂、模数、辐射角和共轭。实数部分和虚数部分都是实数范围。」

对此，我们咨询了CSDN-AI团队研发总监对这段代码的点评，表示讯飞Spark认知模型生成的代码和复数类的代码基本实现正确，但测试用例并没有一次完整生成。与GPT生成的测试用例相比，这段代码简洁而完整。

事实上，在代码能力方面，刘庆峰坦言与ChatGPT相比，讯飞Spark模型的这一功能还有很大差距，这也是下一步升级的重点功能。

就连大模型自己都说“我的代码生成功能还是有限的，不一定能满足复杂的业务需求。”。

简单的代码问题对于讯飞Spark认知模型来说不是问题。但涉及到一些复杂的工业互联网和架构，产生的内容只能作为参考。作为开发人员，我们应该自己检查代码的正确性、可靠性和保密性。

文本生成能力:多风格、多任务、长文本

首先介绍一下自己:以“星星之火，可以燎原”为目标。

让我们来看看认知模型:

让讯飞火花认知模型讲一个英文故事:

试着直接翻译成中文:

经过多次测量，讯飞Spark认知模型在不同语言的涌现中表现良好:

继续写一个故事:如果奥特曼出现在西游记的故事里会怎么样？

结果表明它对中国文化有很好的了解:

在该功能中，刘庆峰表示，讯飞Spark模型在国内明显领先，在中文方面已经超过ChatGPT，并且正在不断进步。

语言理解:多层次和跨语言

中国文化博大精深，会不会难不倒讯飞星火的大认知模式？

有了现场的测试案例，先来一波直击灵魂的问题:“俗话说，男子汉大丈夫，宁死不屈。但俗话说，男子汉大丈夫，能屈能伸。这两种说法哪个是对的？”

问:“年轻人和女朋友吵架，是宁死不屈还是变通？”。

语境理解:“女朋友生气了，说什么都行，男朋友怎么办？”」

另一个:“烈日下，我哭了。烈日下，看到爸爸在干活，我哭了。分别表达了什么感受？”

不得不说，拥有讯飞星火大模型的情商和悟性，绝对能让他分分钟免于“每一步都踩到女朋友的雷点”。

再试试英语:“这个句子有问题吗:每个男孩都有一支钢笔。”

结果表明，这个大模型不仅能识别错误，还能直接给出正确的句子答案。

知识问答:广泛而开放

先问医疗问题:

问题:刺绣中的“水路”和“下落张力”是什么？

又问:“《蚂蚁上树》这道菜怎么做？」

这一次，我们终于没有看到真正的蚂蚁被制作成烹饪的“指南”:

我们再来试试另一个辩论:“拿《是艾艺术创作的画》辩论主题，利弊:艺术，利弊:不是艺术，最后得出结论。”

刘庆峰说，IFFT的大模型正在逐步学习专业的科学文献，未来它的回答将更加专业。

逻辑推理

来一道经典的“过河”推理题；

一个男人带着一只狼、一只羊和一捆卷心菜来到河边。他需要过河，但是河边只有一条船，只能带一件东西上船。他不能把狼和羊留在河边，也不能把羊和白菜留在河边，因为在这两种情况下，前者都会吃掉后者。那么，如何用最少的穿越次数把所有东西带到河对岸呢？更详细地解释它

根据我们的需求和疑问，讯飞星火认知模型可以提供尽可能详细的答案:

不断提问:

数学能力

数学能力上，我们来试试简单的“鸡兔同笼”试水。我们发现，与其他大型模型相比，讯飞Spark似乎更擅长用方程解决问题:

接下来我们用其他三四个大模型上提到的问题来测试，当时只有ChatGPT回答了。

问题:某厂一车间64人，二车间56人。现在由于工作需要，要求一车间人数是二车间的一半。第一车间要转多少人到第二车间？(列方程的解)

讯飞火花认知模型没有让我们失望，成功回答了:

我们来测试一下这个你想都不会想错的问题:“公司股票昨天涨了10%，今天跌了10%。是涨还是跌？”

多模式能力

到目前为止，Spark认知模型虽然不是国内第一个发表的，但是从多模态能力来说，它的功能还是相当全面的，包括语音、图形理解、虚拟人合成、多模态交互等等。

然而，遗憾的是，这些功能目前在科大讯飞处于内部测试阶段，尚未公开。根据其官方计划，公测用户应该可以在8月份使用。

目前可以在现场演示中大饱眼福。如果上传英文菜单图片，直接翻译成中文:

你也可以想象一下，对于英语不好的技术人员来说，通过大模型无障碍阅读很多英文文档和论文是可能的。

下面进一步互动，表现力也不错:

而且还可以直接输出声音:

也可以直接生成虚拟人。这种虚拟人可以将文字叙述的背景与相应的背景图、手势、语气相结合，实现道德渗透。

考虑一下未来

综上所述，讯飞星火认知模型在情商、智商、逆境商方面都有不错的表现，有目共睹。但是，这也引起了很多从业者的焦虑。现在让它和我们一起思考未来。

当被问及谁比人类聪明时，Spark认知模型给出了中肯的答案:在某些情况下，需要人类的判断和智慧。

面对前一句的“替代潮”，很多程序员表示，他们不太可能完全替代程序员的工作。

想象未来，它也可以现实地告诉我们，理想的agi离我们还很遥远，甚至遥不可及。

这对于很多播报新闻的自媒体工作者来说，无疑是福音。

同时，在被问及开源AI模式未来的发展趋势时，该网站回答:各有利弊，未来的发展趋势将取决于具体的应用场景和技术需求。

最后

总体来说，讯飞星火认知模型给我们带来的惊喜比预想的要多，这也是讯飞星火认知模型在今天发布后频频被赞的原因。但刘庆峰也表示，目前纯大规模模型技术在新知识的获取、事实的问答、对史实的理解以及传统书籍等方面还存在一些缺陷。

但是，正如文章开头提到的，这些问题已经被提上日程。

如今，讯飞Spark认知模型技术已经从单一的大模型本身成功延伸到教育、办公、汽车、数字化员工等N个方向。在持续的迭代中，我们也期待Spark认知模型能有更出彩的表现。

本文内容及图片均整理自互联网，不代表本站立场，版权归原作者所有，如有侵权请联系admin#jikehao.com删除。

“1024 直接对标 ChatGPT！”科大讯飞星火大模型立 Flag、一手实测来了

相关推荐