人工智能技术发展迅猛带动了新兴技术的崛起,ChatGPT 的出现,代表了机器学习在自然语言处理方面取得了重要突破,同时也引领了未来人工智能技术的发展方向。
3 月 3 日,顺为资本执行董事冯铮、时域科技创始人&CEO 郭靖与甲子光年智库院长宋涛以《ChatGPT 爆火之后,AIGC 元年真的到来了?》为主题,探讨了人工智能的发展、变革趋势以及风口下的投资机会。给大家带来一场精彩的圆桌对话。
顺为资本执行董事冯铮自 2019 年开始关注虚拟、 3D 等领域,主导了时域科技、次世文化、慧夜科技、 Vland 等项目的早期投资。
「时域科技」专注于下一代的 AI voice 技术,致力于让 AI voice 具备较高的情感表现力,同时具备全栈的能力(例如人类的 voice 不仅仅能说话,还能唱歌,哭,笑,叫喊等)。其中,歌声合成产品 ACE Studio ,可以让 AI 演唱出超越人类的出品级歌声。目前全球音乐创作者已经使用 ACE 创作出上百万首 AI 演唱的歌曲,这些 AI 演唱的歌曲在全网有累计近 10 亿的总播放量。
在下文的对话中,你将了解到:
· ChatGPT 的发展路线是怎样的?为何说它是新一轮革命的典型代表?
· 对于创业者以及投资人来说,ChatGPT 令人眼前一亮的创新体验是什么?
· ChatGPT 是否会推动人工智能往 AGI(通用人工智能)的方向发展?
· 从投资的视角观察,通用型 AI 和专用型 AI 哪种更受投资者的欢迎?
· 如何评估相关领域项目的投资价值?
· 随着 AIGC 技术的大规模推广,还有哪些新的变革趋势会出现?会给哪些行业带来生产力的提升?
……
一、揭秘 ChatGPT:技术起源和实际体验分享
甲子光年宋涛:二位所观察到的 ChatGPT 的发展路线是怎样的?为什么 ChatGPT 突然爆红,成为一个大的风口,甚至有人说它是新一轮革命的典型代表。
时域科技创始人&CEO 郭靖:我们创业的经历过很多这种新的科技主题,但是像 ChatGPT 和它背后代表的 AGI 通用人工智能一样在如此快的时间内让如此多的前沿探索者,如创业者、投资人看到下一个十年的主题,同时又能够让大众疯狂地使用,甚至融入到他们日常的工作流之中,这是前所未见的。
在 2020 年 GPT3 发布之后,人们发现这种通用范式的大模型可能会解决很多原本认为的专用任务。比如说以前 NLP 里面有个典型任务叫词性标注,我们发现这种大的语言模型可以把这些中间层的任务搞定。
2020 年 3 月,其实 GPT3 就已经出来了,ChatGPT 背后的大模型叫 Instruct GPT,它相当于 GPT3.5,理论上它的能力和 GPT3 没有太本质的区别,我说的可能不太严谨,但我大概的感觉是,ChatGPT 能干的事情,GPT3 都能干,只不过你需要给它很好的 prompting,你需要大量的 magic words 驱动它去做这些事。
ChatGPT 的革命性在于它引入了一个 instruct 策略,原来的大模型就像一个小孩子,他躲在图书馆里不断地看书,他知道这个世界上所有的知识,但他不知道两个最关键的信息,就是人类怎么提问,和人类想要获得什么样的答案。但是为什么会有这么好的效果?因为这几万份引入的就是人类如何提问和人类想要获得什么样的答案这样的信息,所以它与人的交互变得友好了,OpenAI 把它开放给大众,让大家随便玩,一下子就炸了。
甲子光年宋涛:刚才郭总给我们从技术路线做了梳理,接下来我们想听听冯总作为一个资深的投资人的观察。从投资人的角度来说,我们所观察到的风口,它是如何演变出来的?为什么现在有这么多的投资机构为了 ChatGPT 所带来的风口这么的疯狂?
顺为执行董事冯铮:我认为现在的风口不一定是一个可以持续的状态。刚刚郭靖讲的技术演进特别好,其实核心就是 ChatGPT 在 GPT3 的基础上改变了交互,所以产生了这么大的变化。从投资人的角度来看,我们受到的启发是,对于一个 AI 产品来说,做一个可以 ToC 的交互体验,对实现 “出圈” 是非常重要的。原来大家不能用它来进行实时问答,现在可以了,这是一个巨大的变化。
其次,我自己的一个体会是,很多东西超过临界点的那一刻,会产生一些奇妙的效果。以前大家讲 3D 世界,我们说当所有人都戴 AR 、 VR 以后,会有很多事情发生,但是 AR 、 VR 的体验没有到临界点,所以这件事需要大家想象,只是一小部分人的 “信仰” 。但是当一件事超过了临界点,它的体验好到不需要谈 “信仰”,任何人都能直观感受到的时候,它就是黄仁勋说的 “iPhone 时刻” 。
我认为另一个核心的原因是 ChatGPT 在这一版的交互上,真正为用户解答了很多生活中的问题,它的效果在各种各样的场景中都得到了大家的认可,所以当这件事实现的时候,大家就不再需要想象了,大家就看到了所谓的 “iPhone 时刻” 。我觉得这是令大家都很兴奋的原因之一。
从时间演进的角度来看,也很有意思。从关注热度的波峰、波谷来看,其实 ChatGPT 的风是有好几波的。第一波是去年 12 月,很多人就对此感到很兴奋了,但是当时并未达到现在的热度。过完一个年回来,这个事情的热度又涨了很多。某种程度也是因为有更多的大厂,在美国比如微软,在国内比如百度等巨头的下场参与,给了它更多的印证,包括 ChatGPT 自己的用户量也一直在增长,让大家看到了这项技术潜在的巨大机会。
我们来概括一下,本质上这是下一代的交互方式。我们在虚拟世界里也经常讲这件事,但是它没有落地。现如今,大家已经体会到了在虚拟世界与 AI 进行自然语言的、实时的交互方式,这件事如果继续做下去,影响的确是非常大的。另外,我觉得今天国内还处在一个偏国产替代的阶段。 3 月 2 号 ChatGPT 自己发布了一个只有一折价格的 API,我觉得下一步更有趣的会是它的内容应用的生态,这个生态如果建立起来将会给大家带来更多的想象空间。
甲子光年宋涛:大家肯定都体验过相关的产品了,接下来想和大家聊一下大家在和 ChatGPT 聊天时,或者和其他类似的产品在交互的过程中,有没有让大家眼前一亮的体验或功能?
顺为执行董事冯铮:我的确玩得比较多,我觉得会有两个阶段。第一个阶段,我和它开玩笑,就像在考它、在 “调戏” 它。我问它一些我知道答案的问题,甚至一些很刁钻的问题,看看它回答的怎么样。这个阶段会给你带来很大的震撼,会觉得它很厉害。但是如果只停留在这一阶段,其实它是不可用的。接下来我和大家分享几个比较有趣的点。
第一,当你信任了他以后,就像我们面对一个人一样,如果你觉得这个人很厉害,你就会给他更多的信息,对他敞开心扉,如果大家玩(ChatGPT 等),我推荐大家给它更多的信息,用它的知识帮你解决问题。如果之前我让它写一个关于 AI 的研究,它的工作相当于把从网络上搜集来的信息做一个整理,这是一个比较初级的工作。但是当你给它一些信息,它首先要理解你的信息,再通过它的知识库去帮你分析,这就不是一个初级的工作了。
我举一个简单的例子,比如你把你的简历文本扔给 ChatGPT,你问它我的职业生涯有什么优缺点,你会发现它非常厉害。它需要做两件事,一是它需要理解我是干嘛的,二是它要对我的职业生涯有一些认知和理解,它要联系起来。再比如你去写一封对外的邮件,你的目的是认识一个人,你把你自己和对方(收件方)介绍给它(ChatGPT),让它帮你写一封邮件,它就能够引用你的经历去介绍这个人。我觉得这些能力是非常有意义的,或者从下一步的应用角度来说,它能够让大家在这个应用上再去构建更多的内容。
另外,我觉得很有趣的是 ChatGPT 的逻辑能力,比如我们之前投的一家公司叫构赛博,他们昨天发布了一款产品,用 ChatGPT 的逻辑能力来帮助在 3D 空间对 3D 物体进行编辑。比如我对它说,请你帮我创建三把凳子,每把凳子中间间隔一米,这件事在今天用语音就可以完成了。所以这其实是一个交互的能力,我觉得这些新的体验是特别有意思的。
甲子光年宋涛:刚才冯总说了很多关于人工智能相关的关键的能力,接下来想听听郭总从业内人士的角度,对这个产品的一些观察和体验。
时域科技创始人&CEO 郭靖:首先我想澄清一点,我刚刚不是说 ChatGPT 之于 GPT3 没有大的技术突破,我其实想表达的是背后的大语言模型在底层认知上没有区别,但是上层的 instruct 策略让它能够有 user friendly interface,这是一个巨大的技术突破。
那么对于刚刚这个问题的 short answer 就是我没有更深刻的使用。接下来我们会探讨一个问题,就是如何在 ChatGPT 上构建应用?或者说在 AGI 时代的应用开发技术到底是什么?可能它不再如我们想象的一般,往更加 Tacky 的方向去走,有更多的技术范式能够在上面去开发应用,而可能是 for everyone 的一个机会。
在 AGI 时代,冯总刚说的这个叫做 In context learning,就是我如何把我的业务逻辑映射到 ChatGPT 的通识系统里,它虽然不知道你的经历,但它有通识能力,它可以 process 一些通用的语言中的常识。你只需要告诉它现在有这样一个情况,帮我分析分析,它就可以做到一个很好的程度。
二、热潮下的未来发展:展望和挑战
甲子光年宋涛:ChatGPT 带来了巨大的变革,但是现在业内有这样一种说法,未来我们还是会往 AGI 的方向去发展,但现在可能还没有达到这个级别。所以想和二位探讨一下当下的风口带来的未来的发展趋势,是真的会推动人工智能往 AGI(通用人工智能)的方向发展吗?还是说有一些其他的技术路线或是更好的趋势?
时域科技创始人&CEO 郭靖:我觉得这是连接主义的大胜利,当下的趋势一定是通向 AGI 的,且 Sam Altman 在很早之前就认为它是通向 AGI 的。比如说在当时的大语言模型下,就有很多范式,比如 Bert 是双向语言模型,它更善于做理解性的东西。但是为什么 GPT 一直坚持叫 decoder only 这种范式,它认为生成任务代表一切。生成任务和图灵机是同构的,GPT3 无非就是文生文,为什么文生图的时候没有人说 AGI 或是 AIGC?为什么文生文就是 AGI?你会发现人作为一个智能体,在这个世界当中,你就是一个图灵机,你在接收这个世界的信息,然后 process,然后你有一个 output,这个 output 又称为这个世界的新的信息的一部分。然后你再接收进去,再 output,只不过 ChatGPT 或是大语言模型目前是在文本空间里做这件事。你可以想象它在除了文本以外的空间里做这件事,加上图像,加上音频,在多模态的空间里做这些事,我们把它放在一个 agent 上面,在一个超拟真多游戏里面,不断地走来走去,它的 sensor 接收到的所有的图像,包括假设未来它可能有味觉的接收。这些所有的模态都统一到它的隐向量里面,在不断地做续写。只不过是世界状态的续写,而不仅仅是文字的续写。它相当于就有了智能。
为什么大家现在这么激动?以前大家说 AGI 的到来,如奇点理论,是对于大逻辑框架的推演。但是现在我们看到了范式。大家现在在等待新的模态进入,等着这个模型越来越大,这就是我们为什么称之为 AGI 。
甲子光年宋涛:如何判断这个标志?比如超过了就是 AGI,你觉得判断的依据是什么?
时域科技创始人&CEO 郭靖:我们从技术角度来讲,比如在 NLP 领域,渐渐地你会发现,所有终极任务(真正有意义的任务),比如翻译或是情感识别,ChatGPT 做的也比所有的专用模型好的那天,在 NLP 领域,我们可以认为它具备了通用性。现在大家在思考,什么是在人的通识教育里,或是大脑构造、或是进化里面具有通用性的事情?而什么是需要你掌握工具或是 polish 自己,成为一个专用任务的?这两件事要区分开。真正的专用任务还是有存在价值的。
我相信未来的结构一定是通用模型作为底层的操作系统,由它来驱动专用模型或是专用的非模型等等,去执行专用任务。一开始大家会开玩笑说,所有的自动驾驶公司都哭了,是不是以后的通用模型可以 “干掉” 我的专用模型?但是大家可以思考这个问题,AGI 未来有可能会开车,但它未必有自动驾驶模型开得好。所以未来更有可能的趋势是在车上有一个 AGI 的 Interface,AGI 来 Process 你的需求,驱动下游的自动驾驶模型去选择更好的驾驶策略,我认为这是未来最大的核心范式。
甲子光年宋涛:刚才提到了通用能力和专用能力的互补性,我也觉得如果只做通用 AI 或专用 AI 是没有前途的,只有二者相结合才能真正地满足我们在日常生活中很多应用场景的落地。那么如果从投资的视角,通用型 AI 和专用型 AI 哪种更受投资者的欢迎?
顺为执行董事冯铮:社会在进步,我们可以参照上一波人工智能深度学习带来的各种变化,当时的 AI 四小龙,刚出来的时候,大家都觉得很厉害。但我们回过头来看,技术的门槛是在降低的。今天的大模型比之前的门槛要高很多。
但另一方面,我们看到新的技术带来了新的交互方式。我觉得在未来,理论上最好的公司一定是一个闭环,我有自己的模型,同时找到了自己的应用场景,在这个应用场景中不断地学习,来完善自己的模型,持续地迭代,成为最优的、效率最高的产品。那么这种 “最优” 可能包括两点:一是我的知识最丰富,二是我最了解用户。在未来如果模型的壁垒降低了,大家才能有更多的机会,才会产生更多的竞争。
甲子光年宋涛:刚才提到了很多次应用场景的问题,其实过去人工智能的一个困难点在于没有应用场景,无法落地。那么现在基于 ChatGPT 的技术路径,大家觉得未来会有哪些好的落地场景值得我们去探索?会不会从落地场景这个层面去评估企业的投资价值?
顺为执行董事冯铮:我觉得这是一个非常值得关注的方向。现在国内更多的还是在讨论我们为什么没有大模型,但是在美国,尤其是 API 出来以后,我觉得会出现像当年互联网创业的感觉,各种各样的落地场景都会尝试。我们今天不知道这些 “尝试” 的答案,但是我觉得有三个关键点:
第一,什么样的东西适合用它(人工智能)来解决?上面我们提到的一些例子,本质上都是交互方式的变革。当交互方式发生变化时,很多产品也要重构。
第二,产品该怎么做?或者说什么是 AI 原生的产品形态,比如我们今天用的所有的编辑软件,它的页面都是一个白板,在交互的时候我们需要打字。那么未来当我们用语音来交互的时候,是否还需要这个白板,都是值得探索的。
第三,如何构建自己的壁垒?如果没有独特的壁垒,最后可能就会被 “卷死” 。
三、变革趋势:AI 技术发展的新篇章
甲子光年宋涛:我认为在 AIGC 的风口之下,最大的变革方向是对内容生产模式的重塑。此前「甲子光年智库」发布了《中国 AIGC 市场研究报告》,其中最重要的一个观点是我们认为 AIGC 的出现,将内容生产的模式进行了革命性的重塑。当 AIGC 的技术越来越成熟,可能人就不再是一个 “第一生产者”,只是一个 “二次加工者” 。那么二位认为,随着 AIGC 技术的大规模推广,还有哪些新的变革趋势会出现?会给哪些行业带来生产力的提升?
顺为执行董事冯铮:我觉得 AIGC 可以分为两类,一类是给用户消费的内容,另一类则是所谓的 creator,即内容创作。我认为这类(内容创作)未来的发展趋势一定是多模态的,另外生成的内容本身也可以结合,比如我们生成的文字和图片能不能做一个结合起来,变成其他的呈现形式,我觉得这些都是非常值得期待的。
还有一点非常想和大家讨论的是,我们用 AI 进行创作,最后一定还会有人类发挥创意的部分。如果以后所有内容都是由 AI 生成,那么就不会有差异化的呈现。
我认为未来仍然会有头部的内容创作者,他们生成的内容仍然要 “卷创意”,而 AI 只是帮他打下手的。每个行业都有自己的创意,比如在文字生成图片快速发展的今天,生产图片已经不再是门槛,而生产图片所需的 prompt 仍然是门槛。所以我认为在内容创作生态里,我们不应该追求 AI 的全流程的打通,而是我们将 AI 作为生产力,来让我们的创造力有更好的发挥。
时域科技创始人&CEO 郭靖:我认为人类本身都是加工者,只是在不同的层级加工。人类的工具的发展、技术的发展,都是不断地去封装更加具象的东西,人类从而更上一层,去将那些更抽象的模块进行排列组合。 AIGC 也是做了类似的事情。人类一直处在升维的趋势中,让更下层的事情被机器所替代。可能渐渐地,人类的 Prompt 也会被简化,ChatGPT 可能会发展出自我交互的能力。虽然这很悲观,但我们不知道这在什么时候会实现。
另外我认为当下 AI 的变革不是一个具体的技术,不能用 AIGC 来做定义。 AGI 至少是一个操作系统,它不需要应用场景,它非常的 General,在中短期内,我认为它可能会无处不在。但是中短期内入口可能不会发生巨大变化,因为硬件设备没有更新。那么未来的 App 可能会以 bot 形式出现。但是从长期来看,当有新一代的硬件出现后,可能入口也会发生变化。现在我们还需要打字,Input 的成本很高,或许在未来,我们就不需要打字了。当新的交互方式出现的时候,如脑电波意识传输,ChatGPT 就会变成真正的入口。我认为未来的 App 可能不依赖于操作系统,因此 AI 不仅仅是生产力的赋能。
四、风口下的投资新机遇
甲子光年宋涛:在 AIGC 的大风口之下,有哪些好的投资方向?如果做底层的操作系统,可能很多企业没有相应的技术水平和投入成本。那么如果只是做基于操作系统的应用软件,对于一些初创型的企业,是不是一个好的方向?
顺为执行董事冯铮:首先我认为多模态的内容生成还是很有价值的,另外我觉得值得探索的是在一些垂直的场景中,有没有可能通过闭环实现比通用 bot 更好更强的能力。但大家需要考虑壁垒问题,现在很少有团队能够建立自己的模型并做出细分场景应用。之前在文字生成图片的应用中,大家看到了这个趋势,因为它是开源的。如果只是复刻一个功能,那么它的壁垒其实不够强。
甲子光年宋涛:最后大家用一句话来评价一下 ChatGPT 吧
时域科技创始人&CEO 郭靖:“Text is all you need.” 我认为大模型是会越来越闭源的,我们要想的是如何在下游的壁垒中去建立自己的数据飞轮,其次就是我们和它的链接就是 Text 本身,所以我们不需要再去想任何 Tacky 的东西。
顺为执行董事冯铮:我认为交互方式的变革突破了临界点,ChatGPT 带来了更加自然的交互方式。