
Agent的元年即将到来,甚至已经到来。
2023年11月30日-12月1日,中国科技产业智库「甲子光年」主办的「致追风赶月的你」2023甲子引力年终盛典在北京举行。现场百余位嘉宾与数百位科技从业者齐聚一堂,全方位聚焦当前科技领域的前沿话题,共同眺望充满未知和新鲜感的明日世界。
在12月1日下午“奇点已来‘AI与元宇宙’专场”活动中,进行了一场题为《AI Agent是大模型之后的下一个机会吗?》的圆桌对话,创新工场执行董事暨前沿科技基金总经理 任博冰作为主持人,与汇智智能创始人兼CEO 孙志明、实在智能创始人兼CEO 孙林君、未来式智能创始人兼CEO杨劲松等几位嘉宾进行了深入探讨,给观众分享关于AI领域发展的观点和看法。
以下是本次圆桌对话实录,「甲子光年」整理删改:
任博冰:大家好,感谢大家下午的时间,今天很有幸跟三位大咖一起讨论AI Agent这个主题,我先自我介绍一下,我是创新工场的任博冰,创新工场在AI1.0时代投了十几家AI独角兽,现在AI2.0时代我们也孵化了两家大模型公司,另外孵化和投资了十多家AI2.0的应用公司包括AI Agent,所以我们对于这个主题很感兴趣,大家也知道今年是大模型的元年,而且基本上今年年初大概从一季度开始就有人讨论Agent是不是下一个应用的新架构,或者说新的爆发点。刚刚主持人提到比尔盖茨这个事,今年看到了很多技术上包括斯坦福小镇这样的AIGC样的Agent,包括最近美国有一家公司MultiOn帮助很多网友解决了驾照考试的问题。所以在技术层面,是具有丰富性的。今天请到三位嘉宾,希望能跟嘉宾们讨论这个问题,先请三位嘉宾分别介绍一下自己和自己的公司。

创新工场执行董事暨前沿科技基金总经理 任博冰
1.AI Agent是大模型之后的一个新机会
孙志明:大家好,我是来自汇智智能的孙志明,我们前身是一家游戏开发和发行公司,在游戏中用户往往需要通过预设的角色和身份进行游戏,我们在开发过程中单纯以这种方式开发工作的。在GPT发布的时候,我们设想如果每个普通用户都有一个这样的具备智能特征的角色,那将打开怎样一个世界,为此,我们在游戏公司板块下面成立了汇智智能公司,以“让AI力量成为每个人的天赋”为使命,陆续的开发部署了三个平台。第一,汇智智能AIGC开放平台,这个旨在提供AIGC的API集成能力。不管是大模型的调用还是各场景的调研,目前在国内还比较缺乏的,得益于上一次GPT4发布过后给大家的启发。实际上我们在这个领域起步是比较早的,我们从今年4月份陆续实现了上一次OpenAI发布会GPTs功能。第二,开发了一个提供普通用户使用的GPTs,内部叫智能体发布工具,目标是提供给每个普通用户,可以通过对话或者通过模板创建属于自己的Agent,为此,在这个过程中我们也成立另外一个项目组“提示词之家”,是一个社区,通过标准化的课件和很多高校合作开展AIGC领域的培授服务。
经过一年的发展,汇智智能陆续提供服务的开发团队已经过4000多个,开发的应用超过了六七万个,初级的终端用户大概过的500万,数量很庞大,而且在最近GPTs发布过后,我们的数据是指数级的增长。通过过程中认识到一些问题,在座各位都是行业从业者,我们和客户交流的时候,发觉大家对于大模型,对于AI Agent或者对于对话框使用的过程都是充满未知,比如说在对话时候会问你是谁,你在干什么,因为不会想到你能帮我干什么,但是一旦用上瘾后,接下来就是在座的机会。

汇智智能创始人、CEO 孙志明
孙林君:大家好,我是实在智能的孙林君,实在智能成立了5年多,是一家人工智能科技公司,我们创立这家公司的时候想法是做2B的数字员工,我们希望数字员工能够像人一样工作,能够跟人协同,能够代替我们做一些重复的琐碎的工作,所以在当时我们认为数字员工这个初级形态是把RPA和AI结合起来。RPA是一种自动化技术,可以驱动各种软件,对他们进行操作,再结合AI能力。另外,现在大模型飞速的发展我们会发现如果用数字员工的手和脚来定义数字员工已经不合适了,而是已经进入到一个智能体新时代了。
今年8月16日发布了自己的大模型叫“塔斯”,同时也发布了第一款智能体产品,这个也是第一个产品级别的智能体,为什么说是产品级别,首先不应该是一个框架,其次应该考虑到人机协同的情况,各种容错打断、重试包括人介入的情况都要考虑。另外一方面,在智能体代替人工作的时候,其实里面面临着很多环节的创新,大模型本身并不是一个产品,但是想做一个产品级的东西要解决很多的问题,要在很多环节上做相应的创新。现在在这块也在积极的找一些场景,比如客服的场景,通过一些简单的画触就可以让Agent帮我们做一些基础的工作,财务上可以帮我们把银行的流水对帐做了,资金审核和授信这件事也能做,其实很多类似于人使用工具的能力通过Agent可以实现。
之所以RPA为什么和Agent有很强的关系,原因就是接口的设计原则其实是高内聚、低耦合的。一个系统暴露越少的接口,证明他的设计越规范,实际上各种没有见过的软件操作上基本都有接口,这个时候RPA起了很大的作用,但是RPA会作为Agent其中一部分,这是为什么我们会去探索这块。

实在智能创始人、CEO 孙林君
杨劲松:我是未来式智能杨劲松,我们公司相比于前面两家时间比较短,我们成立第一天就是专注做Agent的公司,是一个Agent native的公司,我们之所以非常看好这个事情,是因为我之前不管在飞书或者是达摩院一直在从事AI1.0的工作,那时候已经深刻发现AI在实践应用中的挑战,从去年12月份ChatGPT发布以后,其实我们发现整个AI技术的技术栈包括猛烈边界已经极大的拓展,是一个巨大的机会。
于是我们就开始思考这个机会如何抓住。其实判断整个AI Agent是大语言模型落地应用的非常重要的途径,因为我们知道如果仅仅通过对话的话,其实大语言模型能力的发挥是比较少的,所以说一直专注Agent本身这件事情如何变成一个服务于每个企业、每个个体可以使用的Agent。我们公司目前专注在提供企业级Agent这种产品和服务上,相比把Agent与之前的技术和场景结合,其实我们更想探索全新的业务场景,我们觉得这块是一个增量市场,也是后面更多机会所在。包括从简单的做一个智库到后边不断的延伸,把原有的业务流程做一个全新的变革,甚至到后续可以自主的完成相应的任务,这个是我们看到Agent的未来。

未来式智能创始人、CEO 杨劲松
任博冰:三位嘉宾回答的很详细,而且很有特色。第三个问题想问一下三位嘉宾,从你们的视角来看Agent是一个什么样的机会以及你们具体做了哪些去抓住这个机会,先从杨总开始。
2.“Agent是下一个互联网”
杨劲松:那我接着讲,关于Agent,比尔盖茨有一个比喻,Agent是下一个互联网。我们之所以公司成立一开始就做Agent,也是对这个机会的判断。我们认为这绝对是一个万亿级别或者几十万亿级别的市场机会,这是我们一个基础的判断。
我们做出这样的判断,是因为我们认识到大模型在集中人类知识方面具有巨大的潜力。然而,要让模型发挥其能力,我们需要将其应用于相关的领域。由于模型是通用的,我们需要一个Agent的形态,使其能够像人一样在不同的角色中完成不同的动作。Agent在高维的概率空间中可以提供响应和服务,并与外界互动使用工具完成任务。这是我们认为Agent具有巨大机会的主要原因。从大模型的抽象任务中,我们需要思考如何将其应用于后续的行动。这是一个必然的过程。从现实的市场机会来看,短期内有大量的大模型厂商,但这些大模型初始提供的能力通常只是原始的对话和预测下一个词。对于每个个体、企业或个人来说,这些价值相对较小。但是,有了Agent以后,我们可以想象的空间非常大。我们提供的工具不仅可以让个体构建结合业务场景、日常工作流和日常任务的Agent,还可以让企业构建这样的Agent。这种工具才能真正产生巨大的价值。目前,我们首先考虑的是赋能企业,因为Agent技术比较新,使用大模型和Agent技术的企业将具有竞争优势。这些企业愿意为效率提升买单。随着时间的推移,个体和大众也会逐渐接受这种技术,这时整个Agent的能力和产生的价值将逐渐释放。这是我们的思考。
孙林君:智能体(Agent)具有与人类相似的使用工具的能力,这是智能化的一个重要属性。智能体可以借助大模型的涌现能力来操作各种工具,完成特定的任务。从这个角度来看,智能体是智能化成熟的一种表现。比尔·盖茨曾提到,智能体是一种全新的交互方式,从Dos到windows再到用智能体代替跟操作系统交互的方式,成为一个大的趋势。随着智能体的出现,我们使用工具的方式和工作方式都将发生变化。人类和机器将一同工作,分工协同的形式也将更新。我们内部预测明年可能是智能体的元年,因为我们看到大模型的基础能力已经达到很高的水平。对于拥有个性化数据和场景的企业来说,它们的特殊工种可以结合数据、大模型和智能体来完成工作。例如,企业内的调度员可以结合智能体,将原本效率低下的工作变得高效;财务人员可以用更少的精力处理事务性工作。此外,一些长尾、低频的需求也将被激活,智能体可以在我们离开时完成一些任务,这是一种全新的方式。总之,我们非常看好智能体在大模型应用下一个节点的爆发态势。谢谢。
孙志明:Agent是不是大模型的下一个机会?如果从追求热点的角度来讲,我觉得可以这么说,毕竟比尔盖茨都说了,每个人都需要一个Agent,可以帮助你干很多的事情。然而,我认为大模型和Agent并不是两个并列的热点或机会。我们讲Agent目标是人类进入AGI时代,我们从大模型出来的那一刻开始,汇智智能成立就是因为我看到了这样的未来。大模型在基础建设阶段,Agent的大脑就是大模型。我个人认为现在这么火热的大模型,每一次的投入或者每一次的发布,都是打开Agent的序幕。当我们迈向Agent那一天的时候,我们回头看看正是大模型这些公司在做的基础架构。Agent可以说是链接各方场景的机会。这个机会是无限大的,刚才两位老总已经提过Agent的英文场景,所有的英文软件都可以通过Agent去解决,而且我们公司已经实现了很多部分,如吃喝玩乐、文体旅等,所有你想做的事情,你的个人分身都可以很快地去帮你实现掉,无感的实现掉。
随着大模型基础能力的提升,我相信我们国内的大模型公司在该领域上的能力很快就能赶上去。这次GPTs的快速涌现也证明了这一点。我们国内的移动互联网环境比国外强大得多、丰富得多、平滑得多,我们可以很快的在这个赛道上超越,甚至领先全球。
任博冰:容易的问题结束了,后面来点难的,我们也希望嘉宾们给点干货,来讲点实际的例子。下面一个问题请两位孙总讲一下实际落地过程中咱们遇到了什么问题,包括Agent的问题、客户的问题,最好能举一些例子,先请实在的孙总开始。
孙林君:8月份我们推出了内测版的Agent,其实在一些场景上面做了很多的探索,当然这里面确实有很多未知的东西,等待我们去破解。举几个例子,大模型在每次面对同一个任务的时候,它有多样性的。它可能会在哪怕是同样的问题,在不同的时间点下给出的答案会略有差异,这样也会影响最终结果的质量。
另外还需要外挂知识库。比如很多时候一个软件的操作我并没有见过,或者一些推荐知识我并不懂。这个时候我们要把产品的白皮书、接口说明等等一些相关的外部知识能够学习到,但是这种外部知识的组织形式应该是什么样的,什么样的层次关系,应该用一种什么样的训练方式给到大模型,这个也是需要去进行探索的。
还有就是每一个步骤的任务执行也可能会遇到错误。这里面的从事机制应该是什么样的,如果发生问题人怎么样去介入,怎么样去修正他的意图……这方面还要解决很多性能上的问题。但好的情况是我们现在在非常多的场景下,都已经取得了不错的效果。如果大家关注过我们的视频号,会发现我们几乎每周都会放出若干个在很多场景中运行很顺畅的例子,Agent可以接收指令去拆解这些任务,有些任务甚至是比较复杂的。
比如,银行资金流水的对账,这件事原来对RPA公司来讲,这是它赚钱的东西。但是现在对智能体讲一句话就可以了。这里会看到一个巨大的效率上的提升。从用户的商业模式来看,我们可以看到一个明显的转变。在过去,我们通常会针对企业特定的高频、重复的任务,只有当这些任务的ROI很高时,我们才会投入资源去实现它。然而,随着智能体的出现,用户的角色和商业模式也发生了深刻的变化。用户现在可以选择购买智能体产品,然后自己去配置和使用它。这就像每个人配备一个个人助手一样,这种模式彻底改变了整个商业生态。实际上,我们可以看到即使是非常企业级的场景,也可以通过Agent来实现。经过几年的发展,实在智能在RPA领域已经积累了2000多家客户和数万个自动化流程。这些流程都是由客户付费的刚需场景,它们可以挖掘出大量的Agent适用空间。我们坚定会在这个路上一直走下去的,谢谢。
任博冰:补充一个小问题,您觉得就RPA+Agent而言,目前最有前景的交叉场景是哪些?
孙林君:从目前的观察来看,2B领域对于大型企业来说,在降本增效和提升效率方面有很多思考。这些企业正在考虑如何通过智能化技术来提升整个经营的竞争力。因此,我们会在这方面进行很多深入的挖掘,为企业提供更多有效的解决方案。同时,我也非常看好2C场景的发展。虽然2C场景相对较为薄一些,但它的覆盖面非常广。我相信未来人手一个智能助理的时代一定会到来,这将为人们的生活带来更多的便利和效率。
任博冰:有请这位孙总。
孙志明:Agent的落地并不难,站在普通用户的角度来看,可以很快地创建一个属于自己的或企业级的智能应用。我们公司搭建了刚刚提到的三个平台,并提供API集成能力服务,包括两位嘉宾提到的应用场景能力,为各行各业甚至个人提供API接口,北京的调用量很大。在各个行业的应用场景开拓或思考方面,这不是我们公司需要思考的问题,因为这些想法非常多且五花八门。公司将把这部分交给用户,让他们自由创作。目前,我们公司已经实现了自己的智能体,并提供了API封装,具有3000个API能力。我认为这是API落地最基础要去做的事情。
其次是为普通用户提供简单、易上手、便捷的创作工具。现在很多用户可以自行创建,如银行对账单或订机票等API集成的既有大模型基础的系统都可以免费或快速使用。另外我发现普通用户的思维转化比较难。业务团队和客户在沟通时经常会谈到软件思维上去。我觉得类似甲子光年这次的活动就很好,可以促进交流和合作,推动行业更快地发展。谢谢。
任博冰:我正好也总结一下,两位孙总刚才都提到一点,现在的用户,特别是B端的用户,可以根据咱们这边提供的产品去做一些自我的调教,这一点和之前2B软件的交付,会有比较大的区别,当然这可能也是机会,毕竟行业发展还有很长的路要走。我们现在进入最后一个问题,从杨总开始。现在Agent技术也刚刚开始,从三位嘉宾认为Agent技术下一代会往哪个方向迭代,包括Agent框架、模型相关的技术等等以及现在还有哪些关键技术问题需要解决?
3.Agent的元年即将到来
杨劲松:这个问题确实是一个相对比较难的问题,我们还是先理一下Agent的构成,按照大家现在普遍共识理解,包括语言模型、工具、Memory这几层。我们可以先看一下OpenAI的思路,因为我觉得至少在AI2.0这一代,OpenAI对于我们国内还是有一些启发。从11月初的开发者大会上,我们可以看到OpenAI主要发力点在于RAG层面和工具层面都在做事情。RAG主要是为大语言模型增加记忆能力,并提供了各种技术。我相信国内各家公司也会很快跟进。其次是代码生成调用工具能力。目前Agent能力和开发都处于比较早期,Agent使用工具的能力尤为重要。未来的Agent不一定是用户可见的,用户与入口Agent进行交互,由入口Agent指挥具体任务Agent完成相关具体工作。相较之前人点击软件界面来操作任务不同,未来Agent是通过代码使用工具,甚至自主生成工具、界面来完成任务。最后是多智能体的协作探索。单一智能体的能力有限,多智能体有更大的价值。对于Agent框架的需要支持不同Agent协作的方式,会衍生出类人类组织的Agent协作方式,比如Agent团队,Agent公司。多Agent的协作、对话机制,这是未来探索的一个重要方向。
从11月初做的开发者大会,首先这些发布主要发力点从RAG层面、工具层面都在做事情,所谓的Rak其实就是给大语言模型增加记忆这块的能力,这块给出了各种各样的技术。我理解国内的各家公司也会很快跟进。使用工具层面,推出API,但却不是说一个特别新的东西,给出一个新的思路,大家要去发力的点在哪个方向,这两个点我理解很关键。因为现在大语言模型它去完成任务时候,里面影响它最终成功,可能语言模型占了七八成或者产生更多,主要是靠语言模型本身。但是随着Agent使用场景的一个深入,对于记忆的能力、使用工具的能力要求更高,后面需要有更强的能力才能支持更复杂的任务。
孙林君:从技术发展角度来看,有两方面需要进一步强化:一是多模态,二是强化学习。为什么这么说呢?
首先,多模态在大模型中对于对齐是非常困难的。在实现智能体的过程中,例如在游戏中看到画面要知道下一步要怎么做,这个过程仅靠多模态的方式,不一定能确保技术路径的成熟性。因此,我们现在采取两条技术路线:一是多模态的方式,另一个则是结合之前的基础工作,如视觉识别、定位和检测等小模型的技术,这些小模型其实也很精准。我们现在的技术路线是将这些视觉能力结合大模型推理能力再结合使用供给的RPA的能力实现智能体,从当前效果来看,这种方法比纯粹的多模态大模型要有效得多。但从技术路线来看,也需要在多模态方面继续前进。这肯定是一个趋势,但从现实路径来看,也需要将现有的精准模型使用起来。
另外一块是强化学习。我们知道智能体是可以错了之后重试的,可以修正自己的意图或原有的方法,从失败到成功找到一个现实的路径,有点像玩游戏。如果在众多场景下都采用这种思路的话,其实对于强化学习的要求是有的。我们需要构建虚拟的环境,需要在这个上面让智能体能够不断的提升自己的能力来反哺相应的基础模型,这是我们接下来要做的一个很重要的工作。在大模型方面,它的行业know-how非常重要。大模型之所以在很多地方都能表现得很好,是因为支持密度很高且有能力涌现。这种支持密度很高的情况下,对于任务的理解和拆解都是比较好的。当然,对于企业方面来说,不太可能直接购买GPT4并构建一个智能体。在私有化情况下,需要提供高可用、成本可控且模型可用的方式来作为一个中枢模型来驱动很多智能体来完成特定的工作。因此,垂直大模型还是很有必要的。
最后是使用工具的能力。从目前来看,大模型使用工具的能力相对好一些。在真正落地的过程中,客户对于任务完成质量的要求是非常高的。在生产环境中,对于完成任务的质量和完成任务的效率都有比较高的要求,这些都是未来需要探索的东西。
孙志明:这些年我们一直在构建Agent框架,大家都提到了大语言模型的多模态能力、强化学习、机器控制板块和多任务调度体系。然而,在实践中,我们发现,如果Agent不是专门为特定业务场景定制的话,很难满足企业的需求。在与很多客户沟通过程中,我们发现了一个现象:个性化需求非常多样化,这使得应对这些需求变得非常棘手。对于企业来说,如果告诉他们Agent大语言模型可以解决所有问题,那么他们可能会提出很多问题。同时,他们可能会期望以较低的价格实现这一目标。这使得我们面临一个挑战:如何满足企业的个性化需求,同时保持成本效益。从GPTs发布以来,我们一直在基于国外先进的或国内开发的框架体系进行探索。我们已经将C端产品开发出来,以满足相对标准化的需求或快速产生效益。
归根到底,Agent背后的技术能力和大语言模型的每次迭代密切相关。从去年到今年正好一年时间,GPT的发布引领了技术变革和技术迭代的速度。明年可能会是Agent的元年,事实上,它可能已经到来。我们希望所有从事大语言模型开发的公司能够了解Agent,并一起探索、沟通和交流这一框架体系。在数据、算力以及相应的环境方面,只要我们能够跟上GPT的发展,我们就有能力解决这些问题。国内的优势在于互联网环境非常好。在Agent这个赛道上,我们一定能够走出一条适合自己的路。同时,今天这个会场是一个AI与元宇宙会场,我们理想中的元宇宙是每个人都有自己的Agent,在元宇宙的产业里线上线下打通。这样,在这个元宇宙空间里开会时,你的Agent可以帮你赚钱,帮你解决任何其他的工作。谢谢!
任博冰:孙志明总不光提到了降本上面框架优化,还提到了元宇宙跟2CAgent的问题,这个确实是现在很多在探索的点。今天非常感谢三位嘉宾的时间,给我们提供了精彩的观点,也希望三位嘉宾Agent业务能够引领行业。谢谢大家!