发布日期:2022-08-17 12:00:32
全真互联未来已来,数字世界与物理世界将通过数据、技术、算力的数字化、云原生升级,建立泛在连接。人、事、物跨时间、跨空间、跨内容维度、沉浸式、原生式、智能化的进行连接,更真实,更无感的进行体验,促进数实共生。在全真互联时代,数字原生是一种思维方式,是数字化的高级形态。
数字经济时代下,去IOE化最重要的技术壁垒在哪里?数字原生技术更深层次、更广泛的产业应用场景还有哪些?如何看待资本在技术产业化中的作用和角色?数字化技术创新如何去积累人才、技术资源?
本期[新科技物种],玥堂主就上述话题,与天云数据董事长兼CEO雷涛展开对话。
#本期嘉宾:雷涛
雷涛,博士后工作站企业导师,中关村高聚人才,国家人工智能最高奖项“吴文俊人工智能科学技术奖”获得者。
从理论体系到产业化落地
一个企业成长需经历四个阶段
王玥:我们知道一个企业的发展和创始人的基因密切相关。请先介绍一下自己的从业经历和创业过程。
雷涛:我的主要背景还是一个基础的数据中心架构师,我们实际上是服务于互联网后台的大型数据中心建设。2010年前后,我离开外企的最后一家公司是做高性能计算的,当时我们在华尔街的客户大规模的被Hadoop洗牌,很多企业都开始转向了一种新兴的分布式计算框架。
我们看到了企业级市场发生了一次洗牌,所以我就毅然决然地跳到了这个新阵营,当时有一个著名投资人是田溯宁,他拉了杨致远和张明正,准备把硅谷的创新资源和能力辐射到中国,所以,在那个阶段我们也开始同时在硅谷和国内两边做科技项目孵化。
当时整个信息化IOE是由西方为主导,新的软件的基础设施和云的基础设施,应该是有一批新兴力量正在孵化。我们既然有Hbase这样的一个核心技术栈,又有中国正在经历的2.5G的GPRS,3G和后来的4G的建设,一个巨大的数据体量和规模由此诞生,所以对于系统架构是完全全新的一个阶段。
王玥:所以也是这样的客户把咱们很多背后的工程能力、服务能力给锻炼出来了。
雷涛:对,我理解一个企业的成长过程需要经历四个阶段,像现在的人工智能赛道都是先从理论突破,第一个阶段是理论,这个阶段在西方是非常核心的体系,第二个阶段是技术,即技术框架的落地,第三个阶段是工程化,第四个阶段是产业化落地。
最强悍的理论突破应该是深度学习“三教父”推动的,在技术上就是2012年的卷积神经网络,Google把一个可以实操的技术框架落地了。国内诸多世界计算的AI厂商在2015年、2016年开始工程化落地,产业化落地我们现在看到的AI领域比较成熟的产业就是安防。
深度学习三教父:2018年的图灵奖(Turing Award)颁给人工智能科学家Yoshua Bengio,Geoffrey Hinton和Yann LeCun,以表彰他们为当前人工智能的繁荣发展所奠定的基础。
王玥:是的,国内安防领域涌现了像海康威视、大华股份这样一批开始真正在市值上有所反映的公司了。
雷涛:最典型的是从2016、17年开始,CVPR(CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写,即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议)的一些顶级大会真正拿单项冠军的中国团队是海康威视,所以工程化落地其实有一个非常核心的要素,就是有实际资源相结合。
深度学习
是一次人类关于“表达”的革命
王玥:是什么机缘让你决定创办天云数据?你对天云数据有什么样的期待?
雷涛:一个庞大的研发团队要有它的生存能力,我们选了一个行业就是金融,金融市场的信息化比较成熟,很多前沿的组件已经在深入地使用,机器学习的量化能力已经完成。
王玥:金融对这些新兴技术,相对其他行业比起来是更为拥抱的。
雷涛:对,因为很多后台的基础设施就是舶来品,我们进入这个领域就可以做到很多核心组件的替代。我们2015年做了第一个银行核心交易的A类系统,就是把三千多个分支机构所有营业厅柜台的五十多支交易切换到我们现在的系统,也就是去IOE化。
王玥:你看到我们现在这个整个产业环境,除了金融,别的产业对这个技术的拥抱态度是什么样的?
雷涛:金融行业确实认知转移比较方便,我们在金融行业还有一半以上的收入,我们开拓的第二类产业核心是以高性能计算的一些科学服务为主导,比如在能源行业的石油,我们认为深度学习是人类的一次表达革命。
王玥:人类一次表达革命,这个怎么解释?
雷涛:比如像AlphaGo,它的输入到输出之间,人类以前是用知识的最佳实践,比如下过最好的棋谱,我们把最佳实践现背下来,那就是九段的棋手了。
我们的最佳实践是表达,人类的符号,语言文字,理论公式都是表达,但是在公式之外我们是不是还有更丰富的表达?比如神经网络引入了一次非线性的表达,它将输入的黑白落子的两个纬度到输出的输赢,在这两者之间建立了一个可微分可求导的连续数学表达,这个数学表达是通过神经网络一层一层连接,每一层连接有一次非线性组合,这种非线性组合带来一次丰富的特征表达。
这个就可以带来我们语言以前很难被抽象定义的问题,比如说什么是大局观?机器开始用复杂去描述复杂,用于一个复杂的体系,回溯到像科学的第一性原理。
所以在石油这块儿,我们用的就是数学的表达能力,把深度学习的一个循环神经网络的算法引入到勘探领域,还原地质的结构,相当于我们给地球做CT扫描,原来颗粒度在几百米勘测到的水层、沙层岩,现在我们可以精细化到五倍以上的细腻程度。这样对1万m深的像克拉玛依这些深井,我们就有了一个还原能力。除了能源,现在我们给轨道交通同样在做浅表层的还原。
像济南有大量的泉眼,泉水的流动的变化,还有地质结构上整个这个应力结构的变化,以前这种逻辑都是我们用第三代的数据结构仿真计算。我们先有了第二代的知识然后我们再用一个空间模型把它这种应力结构附属上去做迭代计算,这就是高性能以前的做法,今天我们要抛弃掉先验知识进入第四代数据原生的知识生产。
从资源角度看新兴产业场景
来自政府的巨大红利
将推动机器数据生产
王玥:现在越来越多的产业场景可以和你原来的技术能力结合了。那么,在未来的几年让你最兴奋的一个产业场景可能是什么?
雷涛:未来,我们不再从行业的角度去看,而是从资源的角度去看。我们现在看从数据资源入手,哪些产业或者行业可能会更发生一个根本性的变化。
今天,行为数据这块儿还有一些红利发生在政府层。比如健康宝这些内容的数据,新兴的互联网分布式的计算框架和人工智能机器学习的能力,开始释放出更多的价值,行为数据我认为还有一半的市场空间,不是在互联网而是在政府的这个政策。
我最兴奋的产业场景是机器数据生产,如AIot物联网。
AIot体系架构
来源:艾瑞咨询
王玥:就是从流程产生数据到行为产生数据,变成机器产生数据。
雷涛:对,而且它的消费者发生变化了。你看生产数据者和消费者,以前我们的数据的处理逻辑都是人要分析,我们是处理“IT”,就是用IBM的那个模型,DIKW,(data information knowledge Wisdom),以前一直处理information,信息给我们做决策,给我们做下一步的动作,到机器这一边其实我们开始直接触达data,但越来越多的机器数据是不可能被人类直接解读的,需要有很多科学的方法来去转换,所以机器在生产数据同时它也在直接的消费数据,所以这个属于传感器物联网。
这种进步带来了一个什么呢?就是机器的规模化生产,比如我们在导航上看到的任何一个建筑体都是人类在创建。
今天有一种数学表达的方法,是通过低阶的信号可以自动化创建一个规模化的街区。相当于原来你是手抄本,你的知识传播能力是有限的,对这个世界映射的能力是有限的,而今天我们拥有了一个古登堡印刷机,它可以快速的将圣经、黄色小报就辐射到整个欧洲。
所以这些能力现在是由深度学习的框架生成的,数据消费者不再是人脑做分析,而是机器在创建一些低质量数据,然后他消费这些低质量数据,重构出丰富的物理意义。
王玥:那现在我们已经进入到DT时代了吗?
雷涛:我们应该已经一大步跨入了DT时代,IT是一个流程创新的事,DT对IT的彻底洗牌会出现一个很显著的信号,就是IT人员大规模的失业。
王玥:所以也会有一些新兴的岗位出现吧?
雷涛:对,可能是另一类的人群,他的技能和我们完全不一样。
以前的软件是由工程师一行一行编写的,属于脑力劳动,它是一个劳动密集型的产业,国家统计局都对这个软件工程师定义成新时代的农民工了,这个行业已经下沉的很厉害了。
其实工程师在做的事情核心就是翻译,把人类已经抽象出来的知识、逻辑、流程、规则、最佳实践通过咨询抽象出来变成专业知识,然后程序员做的事情就是把知识翻译成if else,自动化代码让程序执行,它是一个严谨的指令执行的过程。
但是今天软件开始发生了一次洗牌,谁在写软件呢?是算法。基于数据训练出一个新兴的,我们现在甚至不管它叫软件,我们定义了一个新的概念叫“数件”,就是对数据本身的描述加上一些算法框架的描述,把它合并成一个知识体,这个知识体被容器化技术快速封装。
王玥:这是一种颠覆式的统计,关键是靠算法。那你在设计这家公司的核心技术竞争力和壁垒上有什么想法和举措?
雷涛:《技术的本质》那本书里讲的第一个创新能力是组合创新,数学和分布式的算力怎么有效的结合起来,其实就是一个跨界的组合。对这种跨界,首先你要做到的就是弄懂两边技能的人的能力组合起来,然后再把它交付出来一个可训练的框架。
我们要处理的企业级计算,它面向十几万张表,你能找到他们依赖关系就是一个非常复杂的数据治理问题。有没有先进的工具能够对这些数据溯源?能够在你做特征工程之前就能有一个初期数据就绪状态,这些都是要有很多企业的计算框架来支撑,又得有最前沿的深度学习的这些能力。
所以这些架构就是我们在做的第一层跨界,也是我们产业内生的跨界,把数据科学和分布式工程能力合并在一起。
在新兴行业做工具替代
用数据资源洗牌新兴产业
王玥:那在工程到产业化这个过程,你是在等着客户提出需求,还是说往前探索去帮他去挖掘产生一些需求?这方面怎么选择?
雷涛:我们会把它定义成两个阶段,第一个阶段是做好工具,因为这个市场它也是梯度的,几个产业他接受程度是不一样,差距非常大。我们会先瞄准核心的新兴产业,用工具去做替代,用工具赋能,我先在这个领域市场里坐稳第一梯队。
能够让大家用这个技术的时候,第一个想到的工具是我们。对会有这种赋能型的DT工具,有这种新兴的AI-Native的数据库,能够完成一个以算法为消费而不是以SQL为消费的主导型的数据基础设施。
然后第二个阶段我们会面向一些具有垄断价值数据资源的这种产业结构,我们通过工具赋能的形式进入产业做产业升级,这个阶段就不是等待的过程,而是帮他一起去创造,这个阶段这个壁垒就很高。就是在跨界组合的时候,你很难定义方向,你能够解答问题,但是不能够去提出问题。这是世界上最难的,还是提出问题,就是why和what?
王玥:我问一个宏观点的问题,今天中美对抗的局面,中国要求自主的这种科技产业链更加完整,对于咱们来说是不是一次机会?
雷涛:我自己理解这是一次巨大的时代红利。这个红利主要体现在新的资源上,因为以前技术的壁垒在制造业这个环节里,它是被一些大公司的专利和贸易所保护的。在科学界是没有是贸易壁垒的,它需要通过别人的索引,来提升学术价值。
所以科学无国界,在这一点上只有人才流动、实验室的建设会出现障碍。但是在对论文的解读和继承上现在还没有出现太大的风险,这是我们看到的就是技术的底层的原动力现在是通畅的。在中美之间没有因为国家这么一个组织形态,把这人类的这一层的文明的迭代有所制衡。
我们现在在某一些技术领域已经有一些能够跟西方去PK了,我觉得在技术侧现在没有那么大的恐慌,我们在另一侧在数据资源侧,也有一个很好的抓手。
在移动互联网我们已经尝到甜头就是人口红利,但是在机器数据生产这一块儿,我们发现我们更有优势的地方,就是政府,因为水电煤这些所有的基础设施都是在国家的大资源上平台上的,数字基建能力是中国一个强有力政府的集中体现。
这一波的数字资产的沉淀会远远要大于北美的数字资产沉淀,这一块儿比如点云数据的快速的采集和沉积,这些新兴的物理数字资源,我们会有一波新的起点。数据这个资源恰恰是我们新的生产力的一个巨大的核心。它不仅仅可以优化我们的产业,它也会创建和洗牌很多新的产业。
王玥:整个国家在提新基建,产业数字化,资本大量涌入这个领域。我们做资本有一个感受,就是资本往往是钟摆式的,它永远很难停在那个最正确的刻度上,要么过热,要么快速大幅的收缩。你怎么看待资本跟你所在的这个领域的影响?我记得在你的融资历程中,一开始也是市场化资本,后面就是国家队资本开始进入。
雷涛:我们看到越来越多国家级的资本,开始投入到科技服务、科技创新的这个路径上来了。因为我们要打交道的数据是资源,服务于军政,很多数据像石油的地震波数据,建国以来是没有开放给过民企的,我们也是通过跟高校的合作来解决一个数据合法性问题。
所以资本我们当时拥抱国家队的核心也是在血缘上做一些调整。很多科技的迭代,并不是一出来先有商业模式,他是先要有创新能力,把创新能力做得足够深,足够扎实。那这个时候方向的选择是多样性的,那谁能够支持?肯定是有早期的一些资本的,那这种长周期的覆盖,他肯定是吃的也是最后的一个回报。它不是资产的一个升级,而更多的是能够启动一个对整个大规模产业孵化的一个过程。
王玥:你也谈到这个产业变化的节奏,包括政府也在大力推新的数据作为要素的创新机遇。现在很多地方都想做这种所谓的创新孵化,包括这种创新联合体,政府,企业,创业者三方参与。那你觉得在这个领域里面有没有类似的或者更好的形式能够支持更多的像你这样的创业者出现?
雷涛:我觉得现在的创新挑战和上一个15年相比是有很大区别的。硅谷加上华尔街,一个科技,一个资本,两两者结合以后去掠夺全球。
其实它的核心是产生在一个模式创新的时代,就是移动互联网,这个时代,小规模团队在一个灵活创意的孵化环境里面,它的基础设施是由一些巨型的互联网公司搭建的,所以可以在这之上去完成很多这个模式创新,做各种创新应用。
那今天我们需要搭一个新的基础设施的一个构建过程,无论是web3,还是这些新兴的分布式框架的数据资源的利用,现在我们面对的就跟我们02年面对移动互联网的状态是一样的,今天我们要先能够拥有一个基础设施,才能够完成这种创新能力的聚合。
王玥:所以不能把移动互联网那种孵化思路继续延伸到这个时代来。
雷涛:是的,在今天AI也是需要一个集中化的企业级的能力,你要去做创新的话,得有一个大型底座,这个底座的能力再加上数据资源。政府我觉得最有价值的就是它引入一些先进的公司帮他去构建一个基础设施,就像房地产你要有三通一平,然后同时你要能够提供你具有本地特色的一些数据资源。
# 关于创新的认知
雷涛:不断的否定会带来创新
-E.N.D-
扫一扫关注公众号