梅涛:大语言模型下半场比拼的是商业化落地和应用

小小MT4 来源:市场资讯 °C 栏目:金融资讯

  “2023中国AIGC产业发展论坛”于9月4日在北京召开。加拿大工程院外籍院士、HiDream.ai创始人兼 CEO梅涛出席并演讲。

  以下为演讲实录:

  首先非常荣幸来到服贸会的现场,跟大家一起分享在大模型时代创业的一些心得,。也非常荣幸见到几位老朋友和认识新朋友。

  由于今天的演讲时间有限限制,我先抛出大概三个观点。,第一个观点,在大语言时代,GPT这个架构已经成为工业界的一个标准的framework。这句话的意思就是说,其实在大语言模型的环境下,下半场基本上比拼的是商业化落地和应用,当然还有以及资源。刚才也看到几家企业在做算力的比拼,其实这个领域我也发现已经非常内卷。

  第二个观点,其实大语言模型已经从单一模态从文字语言模态迅速进入到多模态,也就是说从原来的单一语言模态进化到文本、图片、文本从视频、到图片3D的多种模态的生成和生产生产。但是在这个领域里面其仍然没有实我们看没有形成一个标准化的工业框架。大家也许听说过在知道图片生产领域大家用得的比较多的是Diffusion Model(扩散模型),3D用得的比较多的是NeRF(一种基于神经网络的3D 重建技术),但其实我们还并没有一个统一的框架,能把所有的多模态的内容形成一个工业化标准。因为这其中里有很多的技术上的不确定性,正因为这样技术不确定性,才给到我们初创企业有更多的机会。

  第三个观点,虽然我们HiDream.ai成立只有不到半年的时候,但是我们正在以中国企业的加速度创新加速度进入这个市场,这几个月来在小步快跑、迅速迭代。我们的目标是在年底达成百亿参数量级的多模态大模型,目前在 3 个月的时间内,我们自研大模型的量级已经超过 60 亿。

  接下来给大家看一个短片。这里面刚才给大家播放的短片中所包含的所有的视频、图片、运镜都是由AI我们 HiDream.ai 的创作工具 Pixeling 生成的,没有用到任何第三方软件。这是第二个故事,快递员遇到的一些问题。第三个故事讲的是人类的宇航员要去太空舱做维修,这个技术是特别好的方向。

  大家知道要做这样一个视频,我们其实概括起来包含这有几个步骤:脚本、分镜、关键帧、镜头以及包括视频的合成。,没有一两个月的时间,没有百万级的成本是没有办法做的在过去需要较高的人力、时间和金钱成本。但,今天通过AIGC创作工具已经可以让1-2 大概1.5个这样的学生可以在一周内做好。,这就是AIGC,并不是说要取代现在的人工,而是真的要提高我们的效率,降低成本,提升用户体验,从而释放用户的想象力和创造力。。

  虽然这个这样一个视频的质量还有待于提升,AI 生成最后到工业级的影片还有很长大的路要有走。但我们做的这样一个实验让我们看到了AI 在辅助内容创作领域,今天看到更多的可能性。

  这是刚才讲的观点AIGC已经迅速从单一模态进入到多模态时代。这里有两个例子,第一个例子是美国一家杂志用A AI IGC产品的生成图片做杂志产品封面;另外一个故事是大家所熟知的的用AIGC的软件,用 AIGC 工具生成的作品能参加美国的摄影比赛,并在里面拿到并获得大奖。这两个例子所代表的 AIGC 创作当然里面引发了很多争议,但我今天想讲的并不是争议,而是讲的未来。

  这张图很有意思,我们看了一下,大概预测了一下人类和AIGC产生的图片增量对比,我问过GPT-4一个问题给GPT4,在中世纪的时候在文艺复兴时期人类究竟产生多少件作品?,它告诉我人类可能产生不到100一百万张各种各样的作品,留存到现在的可能不到20二十万件。

  在过去几年大家可以看到人类自己因此互联网时代的加持,每天生产的图片不计其数,现在基本上看到第一条曲线已经基本持平,每天每年产生的图片在1700-18001700 到 1800亿张这个范围这样的范围。,而过去几年AIGC的图片生产量率从2021年到现在大概预测一下,今年已经超过300亿,到2026年很有可能AIGC 生成的图片数量会超过人类创作的图片数量。这个是很“恐怖”的事情,不仅是对算力的大量的需求,对算法也有大量的需求,包括我们作为创业公司要抓住这一波增量去赋能在我们做的事情。

  今天虽然看到AIGC有很多的潜力,我们也仿照着对照像自动驾驶,把 AIGC 我们把它分为几个层次,今天从L1一直到L5的几个等级。今天定义的人工智能,刚才芮总也讲过了我们有很多的挑战,包括可解释性、安全性包括各种。其实我们认为目前AIGC还是处于L2-L3的过渡阶段,这个也正好是吻合了自动驾驶整个过程。多模态时代下,其实我们的目标是希望能够在我们拿到更多的多模态数据 Multimodal data,通过一个很强大的框架能支持生成不同种类的内容生成。

  其实很多人会问说,如果GPT能做单一模态的话,是不是也能把多模态的事情给做了?,其实答案是否定的,这个事情我揭示了很多次,今天再解释一次。首先是我们在做视觉生产的时候遇到一个问题,今天视觉生产的encoder 其实是做不好的很难做好。,大家知道文本里面单词跟单词之间有空格,天然就形成一个token,每个token的含义和语义是非常非常明晰的。但在视觉领域里面给它一张图片,给一个视频,对于图片和视频来说,其实没办法定义非常清晰地定义的一个token,可以做一个PicSo做一个token,这样的话可能今天在座所有的公司你们的GPU加在一起都不够训练的。还有一个做法我们会定义pash,比如4X4、8X8、16X16这样的pash来解决这样的问题,但今天为止我们都没有解决好。第二个难点就是decorder,但是知道文本语言用的最多的是6层的TransFormar的架构,今天视觉生产里面用得的最多的是Diffussion model(扩散模型),这样的天花板蛮低,低到目前最大的生成式模型大概也就是30亿-40亿的参数规模。其实人类的数据远不止30-40亿。第三种当然是alignment(对齐)对齐,今天在训练视觉IPC模型的时候遇到一个最大的问题就是数据量的问题,我们需要高质量特别高的文本和图片的配对、或者或视频和图片的配对。

  这样的原因三种原因造成AI生成图片的一些不足挑战造成今天的不足。今天遇到的第一个问题就是刚才讲到的细节的问题,今天遇到很多的很多比如像人脸、微表情、手指,人有一些这样的很多问题,在生成很多小动物的时候也发现有这样的细节的问题,也就是。所谓的恐怖谷的问题。

  第二个问题刚才很多的嘉宾也讲过,今天不知道怎么去该怎么样去生成一个我们的大模型,因为我们的大模型的量级高达有几千亿的模型,甚至不知道怎么样更好地进行人机对话让人和AGI对话,现在有很多生态在围绕我们在做教程的开发,其实这里面告诉我们下一代的engineer到底怎么样写这个promt怎样更好地去写 prompt,甚至诞生了 prompt engineer 这样的职业。如果 prompt 写得不够好,,本来我们要先生成两只狗和一只猫的图片,最后变成相反的事情。就无法让 AI 更好地理解人的意图,也就不能生成让人满意的作品。

  第三个最大的挑战,我们也是遇到很多的客户提到的问题,就是可控性的问题,。在生成的时候,不管是语言模型还是多模态模型,还是视觉模型里面遇到,最大的问题就是IP不能变,、SKU不能变。,这里面在要保证IP 和 SKU百分之百不能变的情况下,还要生成一个融入感特别好特别自然的图片,是特别非常大的挑战。

  这张图是我经常拿过来讲的,今天我们看GPT的模型的发展,从1到2到3到4,其实一直都还没有到天花板还没有到,有一天GPT把所有人类高质量的文本读完以后,可能可以看到它的天花板在哪里。但是今天看到视觉的AIGC它的天花板其实也蛮高的,今天相当于我们GPT-2的时代,不管是Sstable DDiffusioiffutionn也好,它的模型参数是在30-50亿。HiDream.ai虽然只有3个月的时间,但是我们已经做到60亿的数据量级,我们希望,有没有可能性探索一个把视觉AIGC的Funation model基于视觉的多模态底层大模型,能让视觉 AIGC从一个GPT-2时代进入到GPT-3时代。我个人坚信艰信,因为人类的我们的图片图片我们的、视频内容非常非常丰富,理论上来说我们未来的视觉大模型要远远大于语言文本模型,当然视觉大模型的挑战也是大于会更大这个挑战。

  并不是一个开源的框架做起,我们完全有自己的框架,在中国希望做一个独立自主可控自研的Funntion model,跟智谱AI也是一样的,我们这里的DCoda,还有Momory Augmented training,这个刚才芮总也讲过。我们上面可以基于我们的Funnation model可以做很多,现在已经上线了很多产品,包括文字到图片,图片到图片、图片到视频、文字到视频这样的一些生成内容。

  下面给大家举几个例子,我们的产品叫Pixeling,已经可以生成这样的素材,今天从consep design到productivity这个阶段其实是蛮长的路径,这里面今天已经可以做到像品牌调性、版权图片、材质特写、模特换装、商品摄影等效果等。,这个就是刚才讲的,我们已经可以用正确的prompt产生一个非常有用3D感觉的剪纸、,包括带有中国文化的陶瓷、甚至于,包括大场景效果。其实我们在刚刚过去的人民网云的活动里所有的背景图都是我们给它提供的合作。包括以后的屏幕保护手机屏保有可能是用户定制的屏幕图片,还包括我们有科技感的这些未来的元素,包括有不同画风的。

  讲到落地,我们今年天会更关注在到科技领域的落地,包括现在正在深耕的电商行业里。,电商行业里每年都有几十亿的SKU要更新换代,每一个SKU都要很多大几张的详情图片图片,这里有怎么样高效的背景图,以及把百分之百的背景图放到里面做非常自然的融入。这是用户提供的SKU的图片,一则要由用户生成,或者用户给我们几个背景图。这里有几个例子,这个面包机和闹钟是我们的SKU,这个是百分之百不能有任何的变化,通过结合用户可以通过用户给的prompt和,用户给定的背景图可以生成与背景无缝非常自然场景的衔接融合的图片。还有一种方式另外包括我们的用户,可以不给参考逻辑,他可以给我一句话,用户只需要给到 SKU图片,不需要给到背景图,我们就可以把商品一键生成在不同的背景中就可以把这个杯子放在我们的床头、鲜花旁边、摆件旁边,各种摆件都一键生成,几秒钟就可以做完。

  前段时间刚才讲到的应用的价值,今天我走访了几十家这样的电商,他们的它的设计师就非常痛苦,我们今天可以用Midjourney因的,一会儿用Stable Difusoin,他为生成图片的们的流程非常非常繁琐,痛点非常多,用国外的图片生成工具非常不方便,但是一会儿还要去做翻墙的这些事情,用我们的Pixeling创作工具就可以很快完成做。

  当然我们也可以做训练性的东西,拿出几张照片就可以通过这个prom生成不同的pouse的东西,如果今天只是用开源的话,没办法做到高控内容的生成。包括可以让它在不同的场景下合成这样的图片,当然这里涉及到一些安全合规的问题,我们一定会按照这个来做。我们除了文字生成图片,Pixeling还可以将做文字成视或频图片生成视频,这里大家可以看到这样一个例子,比如左边有一个女孩子背向我们,是在荡秋千这个视频,我们可以把整个的前景和背景都做到很融洽的互动。这个枫叶这个椰子树的树叶也在摆动随着秋千也在做摆动。,如果今天只是做图片生成的话,没办法做到把背景和前景的运动放到一起做,当然我们还做了一个图片到视频的生成。

  我发现一个很有意思的现象,跟视频的编辑师合作的时候,他们希望能从图片生成一段视频,再接着这个视频的最后一帧往下做,这样我们可以无限制地往下做下去。

  当然我们也参加了一个小小的客观评价,香港厦门中文大学有这样一个leadboard数据集评测标准,有3200个prompt,他用这3200个promt而去promt不同的generabal在四个风格中进行评测,其实今天可以看到我们的HiDream.ai有几个比分,综合来看我们实际上跟目前最好的Midjourney v5的差距已经很小不大。大家可以看到它有几个关键指标,第一个可以认为它是图片和我们的prompt之间的语义相关性,即生成的图片到底是否到底我生成的图片是否是用户想要的。第二个是美感,即生成的我们的图片到底是不是非常有质感、,非常高逼真、,非常高清晰。第三一个是人的主观评测,当一个人在面对不同工具生成的结果时,他更倾向于认为哪张的选择是什么,可能会选择哪张图片更好看。从这个客观的评测中大家可以看到,我们虽然HiDream.ai 刚刚成立不到半年的只有几个月的时间,但是进展还是非常快的。

  我们的产品Pixeling已经上线,大家如果有兴趣可以申请体验(www.hidreamai.com)去体验,在 Pixeling 上尝试用可以很快文字生成图片、生成图片,我们支持大概有十几个style,也可以做文字生成到视频的生产,其实这个文字到视频的生产是非常非常独特的一个产品功能,包括我们的vido,可以上传一张短视频,可以把布头的,以及视频编辑功能,比如对用户上传的视频做风格迁移、对视频中的一些元素进行修改,生成新的视频。

  风格做迁移,包括图片可能是一张鹦鹉,我们会把这个鹦鹉变成不同的style,或者不同的品种。

  这就是我今天的分享,希望能跟各位一起共建AIGC生态,这样才能够让中国的企业能在这么激烈的环境下生存下去,谢谢。