百亿美金规模的 GPU 资源池化技术,这家国产替代企业为何可以做到国际领先?|顺为系

2020-12-29  被投企业

随着 AI 技术不断迭代更新,对底层算力的需求也越来越大。

2020 年 7 月 9 日,英伟达市值首次超过英特尔,成为半导体领域市值第二的企业(第一名是台积电)。

有关人士分析,英伟达的崛起离不开 AI 产业的发展。英伟达主攻的 GPU 在算力上约超出 CPU 2~3 个数量级,与 AI 产业结合效果更佳,这也是英伟达能够在当前市场以底层算力芯片赢得高速发展的重要原因。

但是,算力更强的 GPU 芯片也暴露出另一个显著问题:利用率低。

“AWS 在 2018 年放出的一组数据显示,其 GPU 产品平均利用率仅为 10~30% 。国内有不少用户的利用率甚至不足 10%,对这些用户而言,一枚售价 1 万美元的芯片其中 9000 美元是浪费的。帮助企业提高 GPU 的使用效率成了新的市场风口。” 趋动科技创始人王鲲博士介绍到。

在此背景下,王鲲于 2019 年创办了趋动科技,一家 AI 算力资源池化软件公司。

王鲲,趋动科技创始人兼 CEO,中国科技大学博士。

十四岁考取中国科技大学计算机系,在创业前担任 Dell EMC 中国研究院院长。

长期从事计算机体系结构、 GPU 和 FPGA 虚拟化以及分布式系统等领域的研究工作,在业界最早开始推动 FPGA 虚拟化相关研究。

曾获 2005 年微软学者奖学金,2005 年中国科学院院长奖学金,2006 年中国科学院优秀博士论文以及 2007 年全国优博士论文提名奖。

在下文中,顺为君对趋动科技创始人兼 CEO  王鲲博士进行了一个简要的访谈,你将了解:什么是 AI 算力资源池化?该行业的技术壁垒在哪里?为何在这个行业中趋动科技基本没有竞争对手?

……

1. 一年前,是什么样的契机让您决定创立趋动科技,专注于 AI 算力池化这一领域呢?

几乎每一个投资人都会问我为什么创业这个问题。

我 05 年从中科大博士毕业以后去 500  强的外企做了 10 多年计算机体系结构的研究工作,创业前是一家外企中国研究院的院长,负责整个研究院在中国区相关的研究工作和项目,职位和收入都很好。所以我创业的风险其实是很大的,机会成本也很高,而且我之前没有创业经历。

有几个点决定了我想去创业。

第一个是当时我看到了我们今天做的技术,GPU 资源池化的技术,本质上做的是一个软件定义的 GPU,未来也会支持软件定义的其他加速芯片。我看到这个方向,未来一定是有巨大的需求,同时这个方向我们并没有看到市场上有相应的供给,也就是说没有很多的竞争对手。

没有竞争对手最主要的原因,是因为这个方向技术难度非常大,有能力做的团队很少。所以第一个原因是我认定这个技术未来有巨大的市场需求,是一个蓝海的市场。

第二个原因是我第一次创业,没有人能够保证创业一定会成功,所以我也不能保证我一定能成功,但是我知道如果我不出来做这件事情,那一定会出现另一家公司来做我们今天做的事情,并且会做成一家伟大的公司。

所以我不希望到时候后悔,不希望若干年以后觉得自己也有机会,但是却没有努力尝试。主要是基于这两个原因。

2. 目前国内 GPU 资源池化技术的市场规模如何?前景在哪里?如想赶超美国的同样水平技术,大致还需要多久?

从全球的角度来看,这个市场规模未来应该是个百亿美金量级的规模。

这是参照今天的 CPU 虚拟化的市场来评估的。软件是助力硬件的,所以硬件的市场决定了软件市场的规模。目前服务器 CPU 的市场规模为 200 亿美元左右,CPU 虚拟化软件的市场规模为 80 亿美元左右,这是一个大概 40% 的关系。

今天我们软件支持 GPU,而 GPU 只是 AI 加速器的一部分,未来有越来越多的 AI 加速芯片,像寒武纪,华为、燧原等等各种新的芯片出来以后,这个市场的规模在未来几年,我们预判是很有可能超过整个 CPU 的市场,对应的软件的规模就应该也会超过 80 亿美元,所以我们判断它是一个百亿美元左右的市场,应该是差距不会很大。

再回到中国的市场来看,中国的 GPU 市场目前大约占全球市场的 30% 到 40%,这个占比还在不断提高。

中国的软件产业目前在高速发展,在很多应用领域取得了很好的成绩,随着信息化和数字化转型的不断深入,应用软件发展的非常好。我们来看基础软件特别是底层架构这块目前基本上全部是国外软件的天下。我们熟知的桌面操作系统、服务器端操作系统以及 CPU 虚拟化软件都被国外产品垄断。随着国家对科技创新的不断重视,以及新基建的推进,本土科创企业在快速发展。我们今天作为趋动人,非常自豪地说在 AI 算力资源池化、虚拟化领域,我们走在了行业前面,处于全球领先的地位。

100 多年来的前三次工业革命,中国都是被动地跟随,开启近代化历程,而面对这次以 AI 为代表的第四次工业革命,中国有很大的机会成为引领者,改变世界科技格局:中国崛起,领跑世界。将来中国不但要成为世界第一,而且要习惯于成为世界第一。

中国自身也的确具备领跑人工智能的条件和潜力。目前全球人工智能企业最为集中的三个国家分别为美国、中国、英国,三国的人工智能企业数量占全球总数的 65.73% 。中国人工智能专利申请数位列全球第二,中国人工智能论文引用量排名世界第一,中国人工智能领域融资规模世界领先,这些数据的背后是中国强大人工智能实力的彰显,也决定了中国将凭借人工智能登上世界科技舞台。

3. 在这个行业中,您觉得趋动科技作为其中一位佼佼者,最需要建立起的壁垒是什么?

趋动科技的核心优势是技术,如何保持我们在技术上的领先,是我们整个公司头等重要的任务。我们要不停地突破自己,整个公司要不断地颠覆自己,要去寻找新的蓝海市场。与此同时我们要求每位同事也要不停地突破自己。

可以这么讲,我们今天做的每一件事情差不多都是这个领域的先行者,没有人可以教我们,我们都得靠自己去突破那些技术挑战。所以我们招聘的每位员工,尤其是研发的同事,我们的核心要求是两点,第一点是要有意愿学新技术,第二点是要有能力学新技术。在趋动科技我们永远都要去学习新的技术,应用新的技术,把这个新的技术放到我们产品里去解决新的问题,创造新的价值。所以这对整个团队来讲是一个非常高的要求也是非常大的挑战。但是正是因为如此,我们才非常有信心说,即便一直走下去,我们仍然能够保持我们在技术上的优势。

现在资源池化有哪些技术难点呢?

我们设想一个场景:比方说在一个 1000 张卡的 GPU 资源池,有两个用户都只需要用 0.2 张卡,20% 的资源就够了。在这种情况下,如果你给每个用户单独分配一张整卡,资源就可能浪费了。所以要把这两个用户放在一张物理卡上,因为他们用不满,放在一起不浪费资源。

在这种情况下,必须要做到这两个用户是互不干扰的,互相之间是要隔离的。

比方说 A 用户的部分跑出错了,crash 了,那不能影响 B 用户;同样的 B 用户出问题了也不能影响 A 用户。与此同时还得你给 A 多少资源,比方说 0.2 张卡的资源就不能用超,因为如果用超了,用到一整张卡,那第二个用户就跑不起来了。所以这个资源的隔离是要做到的。

前面是一个例子,比如说 0.2,那实际使用中这个粒度不一定是 0.2 。可能一个是 0.05,一个是 0.15,另外一个是 0.36 。那这个粒度能做的越小实际上就越灵活,同时能不能支持用户动态地变化很关键。比方说最开始的时候 0.2 张卡够用了,但是用户在跑应用的过程中发现 0.2 张卡不够用,能不能变成 0.3,0.4,0.5?

这个就是一个动态伸缩,动态伸缩也是其中一个技术难点。

还有一个技术难点是把多个用户放在一张卡上来共享的时候,这个资源池里面有 1000 张 GPU 卡,用户的应用程序就应该可以使用这 1000  张卡里面的任何一张,资源池的意思就是说里面的任何一张卡都应该可以用,那么就会出现一种情况是跑应用程序的机器和要用卡这个机器可能不是同一台机器。也就是说程序跑在 A 服务器上,但是分配的这个卡有可能是 B 服务器的卡,这种可能性非常大。因为在资源池里也许别的卡都已经被占了,只有这个 B 服务器有一张卡可以用。

这种情况我们称之为远程调用,本质上就是一个 remote GPU,远程 GPU 的性能优化是非常难的,因为 GPU 上会进行大量的运算,这个运算的量级非常高,会有大量的数据传输。所以如果程序运行在一台服务器,但是却用另外一台服务器的 GPU,性能是非常难以优化的,这是一个非常大的技术挑战。

我们趋动目前的产品,之所以在这个领域技术上是全世界领先,就是因为使用远程 GPU 可以做到跟使用本地 GPU 的性能差距非常小,在网络比较好的情况下可以做到性能差距在 2% 以内,这就是一个非常非常小的差距。

4. 2020 年中最难忘的事情是什么?

在产品研发的过程中,发生了一件我记忆深刻的事情。

我们知道国内没有公司在做同样的产品,但是国外有公司在做类似功能的产品。我们产品开发基本完成之后,一直想测试一下我们猎户座产品的性能,最好能和国外的产品对比一下,看看有什么要提高和改进的地方。

但是我们没有办法去测试国外的产品。结果非常凑巧,一个行业的专家解决了我们的问题。他通过自己的渠道测试了我们的产品和国外的产品,最后告诉我们,我们的产品主要性能指标都优于国外同类产品。那一刻,我们真的是非常激动,非常骄傲!

5. 在未来的几年中,对趋动科技的发展有什么目标吗?

我们趋动科技未来主要有两方面的规划:第一是保持大规模的研发投入,以确保技术层面的市场领先地位;第二是加速商业化进程。

首先,我们的技术是领先的,我们要始终保持这种技术上的领先性,我们会持续加大研发投入,吸引最优秀的人才加入我们,这始终是我们的核心要务之一。

我们目前产品设计是基于对算力的灵活调配,软件定义算力,我们在云游戏这个赛道也发现了类似的需求,而我们的技术又有一部分是可以复用的,所以我们又进入了云游戏行业。我们现在支持云游戏的产品已经在计划中有条不紊的开发,在不久的将来也会发布我们云游戏的产品。未来除了 AI 、云游戏、云 VR,只要是对算力有需求的行业,趋动都有可能会进入。

第二,我们已经搭建了完整的售前、销售、市场团队,已经在全国布局,高效地开展相关工作,我们会持续地加大市场方面的投入,加速商业化进程。

趋动科技刚刚完成了顺为领投的 A 轮融资,从资本层面获得了极大的助力,有利于实现刚刚提到的研发投入和加速商业化进程这两个重要任务。

从我个人的角度,创业过程中每天都会遇到新的事情,新的情况,对我来说既是挑战也是机遇,我希望能和我创立的趋动科技共同成长,共同见证中国 AI 产业的发展和领先、中国软件产业的发展和领先以及中国整体科技力量的发展和领先,中国在过去的几千年里面都是世界领先,我希望我们这一代人能够亲眼见证中国的科技重新回到世界的最前列。

background

提交商业计划书

查看 被投资公司

立即提交