管家婆马报图今晚-免费完整资料

文|新莓daybreak 史圣园

编辑|翟文婷

百度高调发布文心大模型4.0，再次将人们的目光聚焦在生成式AI。

李彦宏的说法是，与GPT4相比，文心 4.0的综合水平已经毫不逊色，理解、生成、逻辑和记忆四大能力，都有明显提升。

基础模型的能力决定着AI 原生应用的可能性。

AI 时代，搭建应用的技术成本显著降低，最重要的还是找到「场景」。未来将有大量的大模型应用井喷，已成为行业内、投资圈的共识。问题在于，什么时候才能产生真正意义上的AI爆款应用？

百度的解题方法是，一方面押注自己，将既有产品线用 AI重构；另一方面也将筹码均匀分布到「生态」。百度智能云应用商店、灵境插件平台，试图搭建 AI 时代的 App Store，扩大命中「杀手级应用」的概率。

问题是，百度如何才能避免让这种热情沦为一厢情愿呢？

毕竟现实是，C端用户使用AI应用的频次并不高，找不到打开AI的正确方式；B端客户采买的决策链路复杂漫长，同时担心数据安全。这个行业症结，百度是否有正确解法？

喊话 GPT 4

学界普遍认为，参数规模越大，模型的通用能力越强。

此次发布会上，李彦宏没有提及文心大模型 4.0 的参数规模，而是着重展现了贴合生活场景的模型能力。据《晚点 LatePost》报道，该版本参数规模或达到万亿级别。

李彦宏依次展示了文心大模型的四大能力：

·理解能力，他用公积金异地贷款为例，展示文心 4.0 对于前后乱序、表述模糊、潜台词洞察的能力。

·生成能力，让大模型根据需求，生成一整套汽车的营销素材，包括文案、海报、视频等多模态内容。

·逻辑能力，举例的场景是家长辅导功课，文心一言给孩子讲解数学题，包括解题思路、计算过程，以及知识点的延伸。

·记忆能力则是通过小说创作的案例，不断补充人物关系、戏剧冲突等细节，展示大模型在多轮对话中的记忆力。

值得一提的是，这四个场景均跟生活和工作中的「生产力」相关，强调切实的信息价值，弱化了休闲娱乐场景的陪伴、互动能力。看起来，文心一言的定位更像是一个「万金油」助手。

主动发出这样的信号，或许说明百度对模型能力有着更高的要求，想要积累更多的高质量用户数据。大模型的幻觉、行业知识的缺乏，是其广泛落地的最大障碍。

娱乐场景的闲聊，虽然门槛低、有趣、易传播，更容易积累大量的语料，单个用户就能在一天中聊几百个来回，但这些数据对底层模型的知识提升较为有限。而行业用户所提出的问题、给出的反馈，才能真的让大模型更懂业务场景。

新莓 daybreak 选取了一个注册会计师考试题目，来实际测试文心 4.0和 GPT-4 目前的能力。该题目的计算过程，涉及 4 个解题步骤。

很遗憾，中外两款大模型都未能正确回答，但均给出了解题思路。目前线上版本的文心一言依靠文心3.5模型，在第一步就出现了计算错误；而文心 4.0 和GPT-4 均是在第三步出现了计算错误。由此看来，各家大模型的推理能力均有待加强。

管家婆马报图今晚

CPA考题，各家大模型均计算错误

当我们提示「计算步骤中是否出现数据错误」时，GPT-4 修正了数据错误，并给出了正确回答；而文心3.5、4.0 均开启了另一个话题，试图说明「数据计算出现错误」是什么原因，虽然文心4.0的解释更翔实，但它并未能理解这句指示的真正意图。GPT-4的上下文记忆和理解能力，目前略胜一筹。

管家婆马报图今晚

GPT4 在用户提示下修正了错误

以上测试，均是在未经微调的通用应用上进行的测试。在实际应用时，往往需要用业务数据对模型进行微调；然而，通用大模型在某个特定任务上的能力上升，可能会伴随着其他场景上的能力下降。因此，针对不同的领域任务，推出不同的微调接口，对于实际应用尤为重要。

一些企业客户已经开始接入文心4.0体验测试，某金融机构的IT部门告诉新莓daybreak，4.0版本的知识问答能力比之前有较大的提升。

AI重构应用

「没有构建于基础模型之上的丰富的 AI 原生应用，大模型就一文不值。」李彦宏说。他认为，AI 原生应用就是基于大模型的理解、生成、逻辑和记忆能力开发出来的应用。

此前，李彦宏曾从更感性的角度给出 AI 原生应用的定义。除了以上四点技术能力外，还需要满足两个条件：能用自然语言交互、每个功能不超过两级菜单。

换言之，AI 原生应用，应该是简单、直觉、轻量的。

改革先从自家的产品做起，百度搜索、网盘、文库、地图、智能办公（如流）、输入法等全线产品，都进行了 AI 化改造。

先来看搜索。百度曾靠搜索起家，后来知乎、微博、小红书、B站，纷纷抢占了用户的搜索时间。

早在2年前，抖音的搜索月活达5.5亿次+，快手搜索月活达3亿次+，单日视频搜索量达2.5亿次+；截至2023年2月，小红书日均搜索查询量达3亿次。比起各类社交媒体上的专业领域KOL，百家号、贴吧构筑的内容池，显得吸引力不足。另一方面，仅能命中文本关键词的搜索形式，无法很好地搜索图片、视频等内容，已经无法满足多元的搜索需求。

这一次，百度搜索想借助 AI 变得更懂用户。李彦宏介绍，「新搜索不再是给你一堆链接，而是通过大模型去理解，生成一个最好的答案。」他将新搜索的特点归纳为「极致满足、推荐激发、多轮交互」。

用大白话说，搜索引擎不再只是按照你输入的关键词搜内容，而是跟你聊天，并将结果整理成更易懂、易用的通俗语言。如果「对话」是搜索未来的产品形态，那么被颠覆的不仅是用户体验，还有搜索引擎的商业模式。

AI 搜索，不再是搬运内容，而是在创造内容。

如果当 AI 的创造包含广告的成分，且不加以区分，那么用户将无法信任搜索的结果。如果限制商业行为对AI回复的干扰，那么竞价排名的广告收入势必会受影响。目前，线上使用的百度搜索仍然是老版本，只是多了一个唤起 AI 助手的入口。

百度文库、百度网盘也纷纷在各自的界面上加入了 AI 助手。网盘助手和文库助手都可以帮助用户总结内容、提炼要点。功能都是好功能，但放在一起，不免让人觉得，各条产品线的 AI 助手大同小异。

让人眼前一亮的是 AI 版输入法。百度输入法的 AI 功能叫「超会写」，主打「让你社交沟通不再精神内耗」，洞察到了一个刚需、高频、且对生成文案容错率较高的场景。但目前，点击输入栏的按钮唤起AI的交互，还是略显刻意。AI功能和输入法的融合，微信输入法更润物细无声，将输入本身变成召唤术：在输入文字后，自动联想到优化表达、唤起音乐等贴合场景的需求。

管家婆马报图今晚

微信输入法的AI唤醒方式更加自然

百度 AI 原生应用商店也一并上线，截止 10 月 22 日，共有 55 款应用。生态中的智能应用，集中在智能客服、AI辅助写作、专业知识问答等几个场景，和百度自有产品线的应用场景高度重合，但多了一些行业属性。

如何先用起来

阻碍 B 端用户应用大模型的，主要是成本和预期的问题。无论规模，企业们都非常看重数据的私密性。

Cathy 是一家大模型公司的解决方案工程师，她说，即使是云端私有化的方式，一些客户还是感到不安。「客户最开始试验的，都是一些对数据安全要求不太严格的功能。但如果后续想要一些深度功能，就纷纷都要求私有化了。」

但如果要将大模型做私有化部署，价格往往需要几千万元，整个决策链路就要被无限拉长。

David 所在的创业科技公司长期服务企业客户。不仅是他们，客户公司的部门领导也更喜欢短平快、立竿见影的小项目，让自己的部门先做起来。「大型机构的招投标，如果从部门上升到整个公司层面，就会变得极其复杂。」

「客户的需求都比较理想化，他们都希望用稍微小一点的模型，最好可以私有化部署，然后还能达到很好的效果。」David 说，经过他们测试，如果企业内部的数据质量足够高，在 6B、13B 的小参数模型上进行特定任务训练，也能达到相对理想的效果。

David还补充道，「不仅仅是私有化的成本，单次推理的成本也会更低，速度还会更快。我的亲身体会是，小参数的模型，客户接受起来更容易一些。」

而对于大多数 C 端用户来说，真正使用 AI 的频次并不高。一些 AI 应用的定价从侧面证实，用户订阅 AI 服务颇有点冲动消费的意味。「为 AI 付费，感觉像是办了个健身房的年卡会员，是在消费一种『我会更加高效』的感觉。」

海外用户量较大的两款文档处理类 AI 工具，ChatPDF 和 PDF.ai，都将月度会员的权益放大到几乎「无限次使用」，再收取十几美元的价格。

这两款产品都出自个人开发者之手，他们没有赔本赚吆喝的必要。从实际使用情况来看，很少有用户高频使用，十几美元就足够覆盖用户消耗的成本。用户使用程度不够深入，或许也说明，AI 现有的能力，并没有达到用户的期待。

但也不是绝对的。程序员是为数不多认真在使用 AI 产品的人群。

GitHub Copilot 的售价也是每月10美元，华尔街日报却报道称，平均每位付费用户每月给微软带来了20 美元的亏损。从另一个角度看，微软每月用 20 美元的价格，雇佣了一个认真的用户，提供高质量的数据帮他们训练 AI。

人人都知道下一个机会在应用层，可是找准场景、利用 AI 丝滑地升级现有产品，又谈何容易。

企业用户还在担心数据安全，大量个人用户找不到 AI 的正确打开方式。大模型想要兑现商业价值，似乎长路漫漫。

而百度的抢跑似乎在告诉我们，快人一步，至少意味着更多空间和可能。

文|新莓daybreak 史圣园

编辑|翟文婷

百度高调发布文心大模型4.0，再次将人们的目光聚焦在生成式AI。

李彦宏的说法是，与GPT4相比，文心 4.0的综合水平已经毫不逊色，理解、生成、逻辑和记忆四大能力，都有明显提升。

基础模型的能力决定着AI 原生应用的可能性。

问题是，百度如何才能避免让这种热情沦为一厢情愿呢？

喊话 GPT 4

学界普遍认为，参数规模越大，模型的通用能力越强。

李彦宏依次展示了文心大模型的四大能力：

·理解能力，他用公积金异地贷款为例，展示文心 4.0 对于前后乱序、表述模糊、潜台词洞察的能力。

·生成能力，让大模型根据需求，生成一整套汽车的营销素材，包括文案、海报、视频等多模态内容。

·逻辑能力，举例的场景是家长辅导功课，文心一言给孩子讲解数学题，包括解题思路、计算过程，以及知识点的延伸。

·记忆能力则是通过小说创作的案例，不断补充人物关系、戏剧冲突等细节，展示大模型在多轮对话中的记忆力。

新莓 daybreak 选取了一个注册会计师考试题目，来实际测试文心 4.0和 GPT-4 目前的能力。该题目的计算过程，涉及 4 个解题步骤。

管家婆马报图今晚

CPA考题，各家大模型均计算错误

管家婆马报图今晚

GPT4 在用户提示下修正了错误

一些企业客户已经开始接入文心4.0体验测试，某金融机构的IT部门告诉新莓daybreak，4.0版本的知识问答能力比之前有较大的提升。

AI重构应用

换言之，AI 原生应用，应该是简单、直觉、轻量的。

改革先从自家的产品做起，百度搜索、网盘、文库、地图、智能办公（如流）、输入法等全线产品，都进行了 AI 化改造。

先来看搜索。百度曾靠搜索起家，后来知乎、微博、小红书、B站，纷纷抢占了用户的搜索时间。

AI 搜索，不再是搬运内容，而是在创造内容。

管家婆马报图今晚

微信输入法的AI唤醒方式更加自然

如何先用起来

阻碍 B 端用户应用大模型的，主要是成本和预期的问题。无论规模，企业们都非常看重数据的私密性。

但如果要将大模型做私有化部署，价格往往需要几千万元，整个决策链路就要被无限拉长。

David还补充道，「不仅仅是私有化的成本，单次推理的成本也会更低，速度还会更快。我的亲身体会是，小参数的模型，客户接受起来更容易一些。」

海外用户量较大的两款文档处理类 AI 工具，ChatPDF 和 PDF.ai，都将月度会员的权益放大到几乎「无限次使用」，再收取十几美元的价格。

但也不是绝对的。程序员是为数不多认真在使用 AI 产品的人群。

人人都知道下一个机会在应用层，可是找准场景、利用 AI 丝滑地升级现有产品，又谈何容易。

企业用户还在担心数据安全，大量个人用户找不到 AI 的正确打开方式。大模型想要兑现商业价值，似乎长路漫漫。

而百度的抢跑似乎在告诉我们，快人一步，至少意味着更多空间和可能。

历史搜索全部删除

热门搜索

百度想要定义AI原生应用，但抢跑不等于领跑

喊话 GPT 4

AI重构应用

如何先用起来

百度

评论

百度想要定义AI原生应用，但抢跑不等于领跑

喊话 GPT 4

AI重构应用

如何先用起来