
“苟日新、日日新、又日新。”
2023年11月30日-12月1日,中国科技产业智库「甲子光年」主办的“致追风赶月的你——2023甲子引力年终盛典”在北京举行。现场百余位嘉宾与数百位科技从业者齐聚一堂,全方位聚焦当前科技领域的前沿话题,共同眺望充满未知和新鲜感的明日世界。
在12月1日下午“奇点已来‘AI与元宇宙’专场”活动中,商汤科技数字文娱事业部副总裁李星冶带来题为《乘大模型之风,揽元宇宙之月》的演讲。
李星冶认为,对于一个AI企业来说,首先要看它是否有算力。没有算力,却说自己做大模型,相当于后厨连油和锅都没有说自己做了一个私房菜,这显然是不可信的。
以下是商汤科技数字文娱事业部副总裁李星冶演讲实录,「甲子光年」整理删改:
大家好,我是商汤科技数字文娱事业部副总裁李星冶。这次主题演讲尽管标题有元宇宙,但我们今天分享的主要还是大模型。在2021年,我们听到了很多关于元宇宙的讨论。然而,到了2022年,我们公司内部开始认为元宇宙的热度正在逐渐消退。到了2023年,我们觉得元宇宙能带来的创新空间已经相对有限。因此,在今天,包括在之前的嘉宾分享中,我们更多地聚焦于AI和大模型的话题。所以,在接下来的十几分钟里,我将重点向大家介绍商汤作为一家专注于AI的企业,在过去十年里深度耕耘所积累的经验和技术实力,以及在这个大模型时代我们能够做些什么。
就行业的情况而言,商汤从2014年至今已经积累了十年的经验。在这十年里,我们逐渐在行业中扎根,为多个行业提供了服务。例如,在智能手机领域,我们服务了17亿部手机,除了苹果手机以外,其他品牌的手机或多或少都搭载了商汤的一些算法。在智慧城市领域,我们服务了近20个千万级城市和一两百个百万级城市。在自动驾驶领域,我们有三千万台车搭载了商汤的自动驾驶技术。此外,在互联网领域,有300个顶级的APP与商汤进行合作,几乎每个人手机里的20个以上APP都与商汤有一些合作。
早期,我们在许多行业中进行了落地应用,并分为四个大的业务方向。随着大模型的到来,我们思考能在大模型上层应用上找到一些结合点。今天,我将重点讲述我们在AIGC领域所做的一些工作。商汤的大体情况就是这样,由于时间关系,我不再赘述。
目前,商汤有幸成为了第一家垂直领域的上市公司,于2021年在香港上市。大家都知道AI这个词特别热门,特别是从去年11月底GPT-3.5到现在。但是,我认为要判断一个公司是否是AI公司,可以进行一个类比。就像一个餐厅是提供预制菜还是私房菜,重要的是看它是否有后厨。如果一个餐馆说他们的菜很好吃,但是走进后厨却空空如也,那么大概率是预制菜中央厨房配送的。所以对于一个AI企业来说,首先要看它是否有算力。没有算力,只有十张卡,却说自己做大模型,这相当于后厨连油和锅都没有说自己做了一个私房菜,这显然是不可信的。到现在为止,GPT-3.5使用了千张卡,而GPT-4已经使用了万张卡。微软号称整个微软系要做一百万张卡(未来的1-2年内)。如果现在没有几万张卡或者没有把两千张以上卡连起来做稠密计算的know-how的话,或者没有这样的资本积累的话,那么其实不足以参与AI的竞争。这是做大模型厂商的共识。
我们在2019年就在上海临港投资了近100亿人民币,并在广州、重庆、深圳、福建、北京等地建立了多个区域的算力中心。要参与大模型的竞争,必须有足够的厨房和厨子,才能做出美味的大餐。这是做大模型厂商的共识。这个是商汤大模型发展的历程,我觉得今天会议主题很浪漫叫致追风赶月的你,但是在我们看来追风赶月可能不够快,商汤的大模型叫日日新,取自于《大学》“苟日新、日日新、又日新”。商汤的大模型发展历程非常迅速。我们早在2021年和2022年就投资了17000多个模型,到现在为止已经有了5-6万个模型。这些模型每天都在更新,甚至平均下来,每天更新的模型不止一个。我们在十几个垂直领域里进行了大量的迭代。大模型从去年底开始更多地破圈,从生产、生活、理财等方面与人们接触更多。其实在2017年就有相关论文发表,更早被谷歌等顶级机构提出或学术院所研究。国内很多大模型厂商,包括商汤在内,第一个大模型就是用Agent做的。我们早在2019年就推出了一个10亿参数的大模型,类似于现在AI的这一波热潮。很多相关企业已经进行了长期的积累,而不是仅仅因为今年大模型很热,才进来蹭这个热度,做一些上层的应用。
刚刚看到包括在遥感、智能驾驶等很多领域的应用了很多应用方向,时间关系,今天讲的更多还是一些我们的SaaS服务的应用,更多是一些上层的能力。商汤数字人应用叫商量,这些名字比较有中国风。商量就是自己大模型最开始市场部取了好多名字,一些中高管投票,最后给老板拍板,他说都不好,然后老板把数字人想做成什么样,商汤技术覆盖的行业,然后输入进商汤的大模型,然后大模型说商汤的数字人就叫如影吧,寓意是如影随形。原因是什么什么,包括一些营销的文案,它的一些Logo。
未来我们的AIGC,稍后我可能会详细聊聊,数字人更多的是它的写意或者是它的“大脑”,这件事确实非常的重要。到目前为止,我们仍然是H2C的,也就是人机交互的。但我们相信一个更快到来的时代一定是C2C的,即角色对角色的交互。现在我们去训练一些大模型,这些大模型仍然是基于人类反馈的强化学习模型。我们也发现了一些很有趣的现象,比如有些外包公司使用大模型来帮助商汤进行数据清洗,一定程度上可以说是用魔法来打败魔法。
1.元宇宙时代大模型的训练
对于我们来说,未来我们有更多的生产创造将基于大模型,并与大模型进行协同。我的虚拟人将和你的虚拟人进行更多的协同,这才是有趣的元宇宙或者AI的时代。我们有5个产品,最右边的是皇冠上的明珠——语言模型,比如ChatGPT、文心一言等顶级的语言模型,这些都是大家比较关注的。目前大家关注点最集中的就是在语言模型上。此外还有四件套,像格物、如影等等,大家在应用市场都可以搜索得到,也都可以下载应用。文生图就类似这个,我们叫秒画。数字人叫如影,还有对于空间和物体的数字孪生,琼宇、格物。由于时间关系,我非常简单地跟大家说了一下。
现在各个大模型的厂商都有他们擅长的领域。比如在ICT方面,商汤的大模型是最出色的。但这并不意味着商汤的大模型就是最牛的,这些榜单只是我们努力卷的结果。模型的底层其实还是内核,这个内核可以塑造出有趣的人和有用的人。有用的人比如我们与一个学习机合作,帮助他们创建了“李白”这样一个模型,教小朋友背诵《唐诗三百首》。我们将李白的生平、诗词录入模型,并找了一个历史系的教授带领两个学生不断校改人机对话。我们训练的模型无限接近于李白的价值观和思考方式。
再以我为例,我们录入一个叫李星冶的模型。这个模型就可以通过结合我的经历、语境和身体状态进行聊天来训练它。再回到李白这个模型,不仅可以教孩子背《唐诗三百首》,还可以让孩子与李白互动,比如问它《望庐山瀑布》是站在哪里写的,这个瀑布水花打的深,有没有把你的衣服打湿,甚至问他说你跟杜甫谁写诗更厉害,当时你怎么看白居易的这首诗,这个词什么意思,甚至可以跟李白去聊一些无关紧要的东西。同时,我们也做了牛顿教孩子学物理的模型,以及在游戏中的NPC、Bot和客服等有用的人。这些模型在特定场景下以特定任务线和使命来承载。另外,我们还塑造了一些有趣的虚拟分身,比如一些偶像的虚拟分身,可能是有形象的、卡通化的、拟真人的、美式漫画的、超级写实能辨真假的,或者是没有形象的。
我们现在正在与一些自媒体合作,例如,明星的虚拟分身可以与粉丝进行互动,参与专辑的宣传和影片作品的上线解读。这种互动是没有具体形象的,可以在后台私信中进行,或者发送一些消息。就像我今天在这里演讲,同时还有一场杭州的活动需要我参加,虚拟分身可以在不同的时空中与更多的人进行问答互动。这是偶像的数字分身的一种应用。这个偶像不一定是大V,我们现在也在与许多MCN、中小KOL和KOC合作,包括角色陪聊。
我自己是80后,相对较少接触这些。但现在很多00后的人群在网上,聊天的轮次非常高。我们现在有一些小朋友,00后、05后,他们能跟我们的语言模型聊十几个小时每天。这个人设可以同时与多人进行互动。例如,我们与阅读网站合作,一个女生生成了7、8个男生为她争风吃醋,有大侠、富二代、企业家、流浪歌手等。当她说今天被老板骂了,这些男生就会以他们各自的风格来讨好她,比如流浪歌手会写一首歌来安慰她,富二代则说我给你买个东西来哄你开心。
像这种角色陪聊和情感陪伴的应用,我们现在正在做很多有趣的事情。很多人找到我们,希望生成一个家人的形象,比如父母、子女或配偶,以缅怀失去的亲人。我们在做大量的应用,但在中国存在很多技术壁垒,时间关系,无法详细展开来说。比如,长对话记忆是一个挑战。我们能记忆多少轮对话呢?基本上,我们可以记住过去半个月的对话,这在大算力的支持下是比较长的记忆时间了。另外,尺度把控也是一个重要的问题。在国内,合规是一个重要的考虑因素。商汤有幸成为网信办发出的第一批牌照的8家公司之一。其中,有两家牌照与商汤有关,一个是商汤自己,另一个是外部实验室。包括BAT有的都没有拿到牌照,我们要做的事情就是把大模型对外去应用。虽然角色互换看起来并不复杂,但在实际操作中需要考虑的因素很多。其中包括云的模式,我们可以用TTS,也可以用更自然的云的方式去完成互动,在底层还有更多的一些技术能力。
后面有一些更具体的应用,时间关系,我就不讲了,往下就说一下我们商汤在做数字人方面有什么不一样的地方。有一些技术点,比如生成的数字人能不能自由的走动,还有一些视觉上技术的难点,或者语言和方言。这个本来是一个讲普通话的,跟我们的主持人一样说一口流利的普通话,你可以把他变成东北话、陕西话等等,这个事在行业已经解决了很多了,并不是商汤有多了不起,我们有一些很棒的友商也能做的不错。我们已经支持了100多种语言和方言。为了实现数字人的快速商业化,我们还需要解决一些挑战,比如如何让数字人手拿东西等。此外,可信性也是一个非常重要的问题。在国内,特别是对于大模型和元宇宙这样的前沿技术,符合监管要求是非常重要的。因此,我们与工信部下面的信通院合作,进行了数字人可信性的验证。从身份证授权到后续的运营、推广、运维等各个环节,我们都确保数字人的可信性。所以,商汤做的每一个数字人都可以理解为已经拿到了“身份证”。我们不会进行主动的篡改,并且会保护相关的隐私。
以上是我们在业内的合作,同时参与的还有一些像华为等等的大厂,在跟我们一起去做相关的可信性验证。数字人做到现在,其实在一个2D的场景里面已经做到了以假乱真,非专业人士简单看一眼,其实基本看不破的。我们认为商汤在数字人方面的特色在于,我们不仅仅局限于数字人的制作,还将其与AIGC底层能力相结合。比如,我们制作了一个女生的数字人,并基于Prompt录入了一些关键词。如果觉得这个女生不错,但希望她变成一个更真实、更酷的意大利女生,那么只需要稍作调整,就可以了。同样地,如果希望她变成一个具有亚洲其他风格的女性,比如更韩式的风格,气质更温柔一些,那么只需要进一步调整,就能实现。然而,妆容和气质的调整是最具挑战性的。在传统的数字人制作中,调整配饰、发型、背景等相对简单,但要实现真正意义上的AIGC,基于大模型进行数字人制作,就需要更多的技术应用和创新。这是我们在数字人制作和AIGC领域中与众不同的地方。
数字人的制作并不一定要基于真实的人进行复刻。目前业界主要有两种方式制作数字人:第一种是动画公司通过纯美术手段创造角色,如超人、阿凡达等;第二种是通过复刻真实的人,采集其数据进行制作。然而,商汤正在探索第三条路——原生数字人。原生数字人的意义在于能够无中生有地创造一个人,并根据Prompt对其进行调整。这种方式的灵活性更高,可以创造出更加多样化的数字人。同时,我们还可以通过控制数字人的声音来增强其表现力,比如AI孙燕姿的音色可以演唱任何歌曲。其实,之前提到的在一个虚拟的空间里做一些事情,例如陪伴式聊天等等,某种意义上就是一种狭义理解的元宇宙。
2.文生图技术的应用
最后,我想简单介绍一下商汤的文生图技术。我们拥有一个70亿参数的大模型,可能是国内最大的文生图模型之一。通过文生图技术,我们可以生成各种风格的图像,如中国画等。在这方面,国内的厂商具有一定的优势。文生漫,即录入一段文字自动生成一些漫画,运用也十分广泛。我们现在跟很多媒体合作,会把所有配图都生成,但是目前主要是漫画的形式多一些。比如说放10张生活照,当然越多张越准,就不断的模拟你的照片,模仿你的形象、气质和风格去生成图像,录入10张照片,同样这个人脸就能生成各种各样风格的照片,甚至可以同时录入关键词,比如我要弹吉他的照片、打篮球的照片、要在长城上的照片都可以。
这个在业内不是特别成熟的一个技术。文生视频这个是OpenAI力争突破的领域。今年基本上大模型厂商主要卷的就是一件事情,怎么样做多模态。多模态目前门槛比较高的事情是文生视频,通过文字变成视频。所以目前为止我们要革命的已经不仅仅是一些简单做文本生成、数据整理的工作,现在其实一些广告策划、视频制作只要录入文本就能生成出动画片、美术片,当然目前效率还没有那么高,尽管视频像素已经是4K或者8K的了,但是动画还是比较简单的。
目前,我们与许多创业公司和传媒公司都在洽谈相关的工作。我们不需要派出团队,只需要通过文字的方式生成中间的镜头。此外,我们合作了300个互联网头部的产品,基本上大家手机安装的一大半都使用了我们的相关视觉算法。这个技术是基于对人体骨骼和关键点的识别,通过我们的技术,可以实时替换视频中的角色。厉害的地方在于,这个技术可以在手机上实现,只要是一部一千元以上的手机,放在这儿就可以做一个实时的AWATA变身。
另一个是空间数字卵生。如果不在现场开会,过去疫情三年可以把今天现场所有一切空间物体都卵生的话,这是一个穹宇,能大到CBD、国贸这种。例如,和中原地产合作,虚拟看房等等。当然同时可以复刻物品。举个例子,今天想带货翻页器,只要围着拍一堆照片,突出几个关键词,可以自动结合生成营销文案、营销视频,自动上线上做传播,属于整套的线上传播的工具。
时间关系,就简单分享到这儿。如果大家觉得我讲的哪个东西跟各位所在的领域里面有结合,可以加我们商务合作的微信,也欢迎大家有进一步的交流,谢谢!