MENU
当前位置: 首页» 新闻中心» 学术动态

原华大基因CEO王俊宣布创业:碳基智能与生命大数据

    【新智元讯】今天上午,原华大基因CEO王俊在第二届网易未来科技峰会上宣布创办深圳碳元科技有限公司。同时,王俊继续留任华大基因董事会担任董事合伙人。他在峰会上做了题为《碳基智能》的演讲,他相信生命大数据和人工智能将给人类带来更加健康的新生活,这也许是未来10年、20年全球范围内最大的产业。
    王俊,曾任华大基因CEO,华大基因研究院院长,丹麦哥本哈根大学、香港大学客座教授。博士生导师,国家杰出青年基金获得者,973首席科学家。2015年10月创办深圳碳元科技有限公司。

    10月15日,第二届网易未来科技峰会在北京悠唐皇冠假日酒店隆重举行。在上午的主论坛上,原华大基因CEO王俊宣布创办深圳碳元科技有限公司。该公司联合创始人还包括原华大基因首席运营官吴淳、首席科学家李英睿及首席信息官黎浩。公司目前正在深圳注册,将于10月27日正式成立,现公司创始人为主要股东。
    王俊在接受网易科技采访时说,这个创业项目是希望建立一个健康大数据平台,运用人工智能技术处理这些数据,帮助人们做健康管理。“我们要建一个‘虚拟村落’,聚集起多个方面的生命和环境数据,这是一个生态系统型的公司,我们会有许多合作伙伴。”王俊说。
    王俊认为,每个个体都是一个运行的生命程序(基因组),它们的功能模块(基因)一脉相承。基因一直在变化,可以被读出来,也可以被拷贝,甚至还能被编写,但生命的公式从未被真正理解。科学研究让我们知道了一些有关生命的皮毛知识,比如人类、种群、个体历史等,我们发现和控制了一些单基因遗传疾病,知道了一些传染源,也出现了一些曙光——肿瘤的个体化治疗。但我们离理解健康还很遥远,更不用说理解生命。
    有趣的是,演讲中还有王俊自己对本人基因检测报告的科学解析。
    王俊认为,生命大数据的构筑将会使我们了解生命、掌控生命。通过收集基因数据,结合基因和锻炼、饮食、传感器、环境、物联网等数据,我们将能快速认识生命和健康,认识人类自身。而在这个未来,人工智能、深度学习等技术将成为关键。
    他认为接下来要做的就是,“很快搜集健康类的大数据,就是各种各样的生命体征和信息的大数据,然后在这个数据基础上,去建立一个人工智能的内核模型,然后把它对接起来,做这样一个整合。”他当时透露,计划用3到5年内筹资100亿来完成这个计划,并且希望这个计划的实施是全球化的,不仅仅局限在中国。
    “我们做的是平台和生态系统型公司,和现有华大的服务模式会形成很好的互补,比如这当中涉及到基因检测的部分,我们是要交给华大等数据产出公司来做的,华大将会是我们很重要的合作伙伴。我们做的事情主要是将生物技术、生命大数据、人工智能和互联网结合起来,这个事情有一定的前瞻性。”王俊说,“这个项目,我们先不着急赚钱,先要把平台搭起来。” 碳元科技目前还未引入外部融资,初期启动资金是由几位创始合伙人筹措。但据说很快会展开第一轮融资。
    以下是王俊演讲全文
    王俊:感谢主持人!我们即将成立的企业叫碳元科技。最近很多人都很奇怪,我 16 年前创立了华大基因,为什么在这样的一个时候选择离开华大基因 CEO 的位置,去做一个完完全全前瞻性的事情。今天借这个机会,我想描述一下它背后的科学逻辑:为什么可以这么做,为什么在华大基因走向正轨的时候选择这样一个未来可以影响到人类和健康的更根本和更前瞻性的事业。
    生命的本质是以碳为基础的,元是本元,是生命本身的源头。如果用计算机的语言来讲,它是一种碳基智能,而计算机是一种以硅为基础的智能。
    碳基本身的智能实际上是一直在变化的,如果我们把生命本身看作是一个程序的话,每一个个体都在运行不同的生命程序,他们的功能模块基因,互相之间是一脉相承的。
    我们看到大千世界的每一个物种,实际上都有一个生命程序。不同的生命程序随着生存环境的不同变化,程序适应生存环境的策略也在改变。每一个人不一样,每一个物种也不一样。
    跟计算机一样,这套程序是可以被读出来的。16年前华大基因的成立,就是为了解读第一个人类基因组的全部基因图谱。这意味着每一个人的生命天书,可以以数字化的形式展现在计算机里面,因为DNA是全世界现在最高效的一种信息化载体。
    这种载体具备很多计算机特征,比如说DNA可以被拷贝。克隆是一个最简单的拷贝器,我们可以将一个DNA完全拷贝和复制到另外一个DNA上。
    它还可以编写,你可以对基因本身的程序进行修改;甚至可以被合成,所谓合成生命学和合成生命的意思,是可以用计算机编一个代码。在实际情况下把一个细节做出来,可以尝试更多的生物学项目。
    这一套生命程序,计算机程序可以读出来、写出来,甚至可以编辑,重新在计算机上编写一套生命程序。但是到现在为止,尽管我们可以用非常高效的方式解读每一个人的生命程序,但是对于生命和健康从来没有真正理解过。这个生命的公式,从基因到你最后所显示出来的生命状态,在这之间的生物学第一定律,从来没有被真正的解读过。
    当然科学界已经做了非常多的尝试。最简单的一个尝试是我们在几年前做的科学研究,解读为什么藏族人在高山上能够比汉族人更加适应高原:因为在他的基因里有一个基因突变。所以科学研究让我们知道了很多皮毛,这些皮毛把一些基因和它对应的结果相对应起来。
    基因的进一步发展,每一个人的基因可以让我们了解一些现状,比如说人类的迁徙史、种群的迁徙史。不仅知道爸妈是谁,而且知道500年前你跟谁是一家,1000年前你是谁。70%的中国人6000年前只来自于3个汉族男人。全世界所有的男人都往前追溯的时候,15万年前实际上是一个男人,所有的这些都蕴藏在你的基因里,因为每一代基因变化都是可以追溯的。
    基因的研究让我们可以控制很多疾病,比如说我们现在看到的地中海贫血,比如我们很多先天性的缺陷,包括白化病,以及我们看到的各种各样的缺陷。所有这些非常稀有的疾病,在整个人群比例中并不稀有,这样七七八八的疾病会逐渐因为基因和疾病之间的关系再次被解读。
    同时我们还知道了一些传染源,比如说一个孩子面临发烧,你可以通过对他的血液进行测序,知道哪些微生物或者病毒感染导致他发烧。
    这些都还不足以表明基因本身的潜力,比如说现在最热门的是用基因做肿瘤的治疗,因为肿瘤实际上是一种疾病的疾病,在不同的环境下他的基因变化所引发的疾病。而这样的基因体细胞突变,因为个体不一样,所以个体化的治疗方案和检测也是不一样的。所谓精准医疗就是针对每一个人本身的状况,去对他进行精准的诊断和精准的治疗。
    尽管基因科技有非常多的发展,尽管基因可能是现在投资领域最热门的一个行业,而且很多很多人都在做基因,但其实我们理解健康、理解基因、理解生命还差得很远。
    举个例子,这张图谱非常震撼,基本每一条染色体,每一个基因都有很多很多的区分,跟各种各样的复杂性有关系。
    以二型糖尿病为例,中国二型糖尿病发生率是11%,从二型糖尿病来看有40个跟糖尿病相关的基因动点,但我们只解决了6%,还有96%基因的遗传性是没有被完全认知的。
    更不要讲它身处的微环境和大环境,如果我们知道30年前中国的糖尿病发生率只有0.67%,而现在已经是11%。30年的基因不可能有大的改变,什么变了?你的饮食变了,生活环境变了,生活方式变了。
    换句话来讲,有可能这些变化引发了你的肠道微生物变化,肠道微生物是体内最重要的一种外环境。
    基因检测这样的东西,会引发各种各样的争议。我自己也把基因测过很多次,用不同的手段。
    从我的基因图谱里可以知道什么?发现了一个痛风基因的携带。痛风基因的携带,我会每天感觉一下关节会不会疼痛,吃海鲜、喝啤酒的时候都要想一下我携带有痛风基因。更可怕的是自己在没有任何症状的情况下,尿酸水平是高的。经过基因的解读,发现我自己本身的尿酸代谢是有些缺陷的。
    尿酸代谢的缺陷需要去弥补。找来找去找到了一种茶,牛蒡茶,这种茶我天天喝,喝了以后可以帮助我体内的微生物弥补本身的尿酸代谢缺陷。在3个月之后,我的尿酸的水平恢复了正常水平。
    后来我又监测到另外一个更可怕的基因现象。因为我不是学医的,我Google、百度一顿查,发现这个病的死亡率非常高。我发现中国人有一半人有基因突变,而基因解读的结果是基于一个很小的人群,并不是在整个中国人群的基础上来做。反过来讲,在中国人群特异的遗传背景下,这个基因突变可能和原发性的肝硬化比例有关系。
    当你简单的做基因检测的时候,并不能够真正的影响和预测你未来的健康。天书难解,唯一解读的方法是互换更全面的数据。
    所以碳元科技想要做的事情是,构建生命科学的大数据,而我们非常需要这样的大数据。生命科学由以前的观察性科学、实验科学逐步的变成了理论化的科学,生命科学第一次用计算机和数学化的方法来研究和拓展。
    从基因单纯的角度来讲,作为构建生命数据的基础,仅仅是一个基础的基线。你需要更多基因的表达数据,基因的表达结构数据,所处的环境数据,包括肠道微生物,甚至包括社交的数据、传感器的数据,包括各种各样你所能收集到的生命科学和生命体征的数据。
    这样的数据量能够达到百万级别、千万级别,海量数据的输入和输出将会成为未来健康产业的引擎。
    这种百万基因组计划,将会构筑精准医疗、精准健康和精准营养。
    现在测定一个基因图谱需要一万块钱人民币,但我认为在现在的互联网情况下,每一个人检测自己的基因应该免费。在免费的基础之上,有一个非常重要的假设,就是在大量的数据积累之后,所有数据所能产生的价值将远远超过它产生这个数据所需要的成本。这样的时间马上就会到来。
    如果我们来看基因,它只是一个基线,在基因水平上不同的条件情况会有不同的反应。这个基因不会告诉你去不去登山,但是会告诉你登山以后你的身体有什么反应,而且会告诉你不断的训练马拉松以后,你会训练到什么水平的马拉松成绩。
    有了你的基因图谱后,你可以加上各种各样的东西,例如生活习惯、饮食数据等。
 
    你也可以加上你的传感器数据。
    还有加上环境数据,包括PM2.5,是不是抽烟,肠道微生物怎么样等等。
    未来有可能是智能化的互联网和物联网,所有的东西都是聪明的,聪明的床、聪明的车、聪明的厕所、聪明的房子和聪明的城市。
    收集到的生命体征和各种各样数据,联合你的基因、基因表达和分子水平的数据,就会重新促进人们对生命和健康的认识。
    有那么大海量的数据,人的大脑本身并不能够认识生命自身。我们需要什么?也许需要计算机的帮助。
     IBM做了一个尝试,他想用大型的基础数据做一个人工智能系统,替代大夫做肺癌诊断,最近有非常长足的进展。
    大的计算量在中国已经不是一个问题,除此之外当然还有人工智能的算法和引擎。有了这三个最核心的东西,也许人工智能和机器学习能够真正重新书写生命的工序。
    小米是我们的主食,我们做了5000株基因和各种各样的数据,在这些基础上构建人工智能模型,预测的准确率超过50%。
    小米是一个在控制环境下生长的作物,人所处的环境要复杂得多,人的行为也要复杂得多。但是在大量的数据基础上,也许我们能够再造生命健康的水晶球。
    未来我们也许需要一个大白,一个健康管理的大白。
    如果程序设定我们的最大寿命是150岁,为何我们无法如此长寿?对每个人来说,程序本身的缺陷会形成遗传病,变异会变成肿瘤。程序的运行如果不在一个正常的状态,或者不在一个最佳的状态,就会形成各种各样的慢性病。我能不能早点知道,早点预防?在这个健康大白的基础上都可以控制。
    肿瘤的发生也可以控制。
    基因和锻炼是可以被精准控制和预知的?
    在认知基础上的修改和再造,都重新定义自己的个人健康。


 
    我们谈了基因和健康,如果把每一个人都连接起来,15万年前所有的男人共享一个祖先,10万年前所有女人都有一个共同祖先。
    我们本身是连接在一起的,想象一下从超级计算机到个人电脑,最后再到互联网,我们把它想象成基因。第一个个人基因,第一个人类基因组,每一个人的基因组,把基因组连起来,它会带来什么,不仅仅是为自己,也是为全人类。
    基因本身是人和人之间最简单、最天然的连接,走失儿童不会再存在任何问题,因为每一个基因都放在那,可以很容易找到。
    每一个骨髓配型,基因放在那儿,骨髓配型将会是非常容易的事儿。病人将会对未来医疗有更大的参与感,因为所有的这些病人,他们的基因、病例表、生命数据特征,在某种情况下是一致的,而这些都会促使他们对疾病有新的认知。
    当然以后可以配备基因。其实我们看一下每个人本身,全球有70亿人的生命,每一个程序都是在试错,因为每一个程序都不一样。人类其实在试错的过程当中,不断的修正和往前演化,而我们自己本身的连接,我们在试错的过程中,很多东西会清晰化。
    每一个人都是特别的,我们都是生命程序本身的超级英雄。在某种意义上,一个基因在这个人的个体里是疾病基因,可能在另外一个人的个体里面它没有关系,这时候那个人也许就能帮助这个疾病的个体。所有的基因连接起来,它会寻找到那个特殊的超级英雄,它会形成新的疾病治疗策略。
    自然是以山清水秀为美,人以健康长寿为福,它将是最大的产业机会。
    当我们有了所有的健康数据,以互联网的方式联系起来后,生命大数据和人工智能将给我们带来更加健康的新生活。我想这也许是未来10年、20年全球范围内最大的产业,因为它是在研究人本身的健康,和人有切身的关系。
    所以,某种意义上来说我们人生下面的10年、20年,希望通过我们的小伙伴和整个团队来攻克这样一个难题,或者给这样一个问题带来一些往前推进的线索。
    谢谢大家。
 
 
 
 
TOP