Genedock李夏戎: 一个在生物领域创业的数据控

医疗健康 来源:图灵访谈
2015
03/23
15:47
图灵访谈 医疗健康

李厦戎自诩为数据控,致力于机器学习算法和分布式系统的实际应用。目前他正在生物数据领域创业,创办聚道科技(Genedock),希望用数据技术推动生命健康行业革新。李厦戎曾在中国最大的移动数据服务平台友盟工作,他作为首席数据科学家,带领团队针对移动数据特点,构建了面向数十亿移动设备的ID映射和用户画像系统。在此期间,他还结合移动广告的实际需求,开发了行为定向和CTR预估等广告策略模块。

问:你在做现在的Genedock之前是做什么工作的?

我之前在友盟,当时是首席数据科学家,做的主要是数据分析和数据挖掘,包括计算广告策略的优化,比如怎么去预估CTR(Click Through Rate,点击率,怎么样给用户做画像,从而针对用户做定向投放。从2011年底一直到今年的8月份我一直在友盟。

问:Genedock跟你之前的工作有关系吗?

我之前的工作基本上就是为上述的数据应用设计pipeline,做数据整合和预处理,构建数据仓库,选择算法,并在分布系统上实现处理流程。今年年初的时候跟同学聊天,他就是做生物领域的,他跟我提到基因测序技术,虽然我之前没有了解过,但是感觉很神奇,这是一个能更深入了解自身的工具。后来我发现基因测序分析已经有实际的应用了,包括产前筛查、新生儿、遗传病,以及癌症相关的诊断和用药指导。深入了解之后,我觉得基因技术的普及对于人类健康有很大的帮助,本身是一件非常有意义的事。而且,我发现基因很大程度上是一个数据问题,而我所积累的知识技能是可以帮助这个领域解决数据方面的问题。

基因数据领域其实国外已经有一些公司在做了,包括谷歌也在从投资和自研两个角度进入这个领域。因此,这是一个有意义、前沿并蕴藏潜力的方向。所以我在5月份下决心做这件事,并着手准备。

问:国内现在这个领域的发展情况怎么样?

如果我们拿基因测序或者基因分析这个市场来说,华大基因肯定是一枝独秀,可以说是这个领域的带头大哥。基因领域的很多公司是由华大员工创办的,业内一般称之为“华小”,所以华大就相当于这个领域的黄埔军校。华大的业务基本涵盖了整条产业链,它之前没有自有的测序技术,没有自有仪器生产,通过收购Complete Genomics也都有了。由于华大的示范效应,领域内其他公司的业务模式大都差不多,提供的都是涵盖样本制备、测序、计算、分析的整合式服务方案。

随着基因数据不断增加,很快数据处理会成为整个业务流的瓶颈。我和合伙人之前都在互联网公司的数据部门,都具备云服务和大规模计算系统的背景,我们希望提供云端数据产品来帮忙解决这个领域的数据计算问题。

所以,我们和行业中已有的公司之间的关系其实不是竞争,更多的是合作关系。我们看到美国市场的分工比较细,有专门做生物实验的,有专门做样本的,有专门做测序的,有专门做数据计算的,有专门做领域应用的,甚至数据存储和检索也有专门的公司。但是国内市场还是处在比较早期而封闭的阶段,所以分工没有那么明确。但是我相信行业会越来越开放,分工会随之出现,每个公司都做自己擅长的部分。

生物医学互助平台Biomedlink问:你们团队有没有生物方面的专业人士?

公司的CTO王乐珩上一份工作在阿里云,他是阿里云的资深产品经理。他之前毕业于中科院计算所的生物信息实验室,并且在那工作了一段时间,前后六年生物信息系统的开发经验,他参与开发的pFind系统在国内应用广泛。另外,我们的科学顾问在斯坦福大学的基因组系(Departmentof Genetics)任教。团队内的基因数据工程师都是做过相关的科研工作。

问:生物大数据和生物信息是一回事吗?它们之间有什么关系?

生物信息学是生物和计算机交叉的学科,主要研究生物数据的处理分析。生物数据本身就具备大数据特性。首先,大数据在规模和生产速度上的特性,一个典型的例子就是由二代基因测序所带来的基因数据量井喷。以前的基因组研究所涉及的数据量比较小,大部分是MB级别的数据。现在一个人类全基因组测序所产出的原始数据就是100-200GB。基因数据的增长背后有几个原因,第一个因素是成本下降,十年前做一个完整的人类全基因测序需要数千万美元,现在只需要一千美元,而未来一两年有可能会达到几百美元甚至更便宜,成本下降非常快。同时,基因测序的数据产出增长也非常快,比如说最新的Illumina的X-Ten测序仪,一天就会产生几百GB的数据。所以,一方面是成本下降,一方面是生产速度提高。

大数据另一个重要的性质是多样性,现在随着各种组学研究,比如基因组、蛋白组、代谢组都在产生大量的数据,并且现在的趋势是组学的交叉研究,我们科学顾问所在的实验室就发表过这方面的早期工作。单一组学产生的数据已经不少了,多个维度的数据交叉必然会使得数据的分析压力越来越大。

另外,大数据的还有真实性和高价值的性质。基因测序是更直接而准确的研究方法,对于医疗、农业、环境、传染病等方面都具有比较高价值。

问:你有没有补充生物方面的知识?对于学习全新领域的知识有什么感受?

最近几个月一直都在看相关的书,包括生物基础知识和生物信息学方面。

生物技术是人类认识自我,量化自我,甚至改善自我的工具。一开始,我觉得面对一个陌生但又非常神奇的行业。虽然隔行如隔山,但我发现生物信息的很多分析算法,之前也都使用过,所以也经常有他乡遇故知的感觉。

问:基因测序在国内的发展水平与国外相比如何?

从科研方面上来讲,基本上还是同步的状态。但是在商业和医疗应用方面,我们的基础设施还是落后于国外。大部分的核心技术还是在国外,比如测序仪和测序试剂都是国外研发的。

问:国外的市场发展情况如何呢?

目前基因领域最大的消费者是科研和医疗机构,而这两个机构其实在中国是相对保守的,国内的商业化相对会落后一些。国外相应的行业都比较开放,愿意接受商业化的服务。

问:那以个人为对象的呢?

现在个人的基因业务是一个起步的阶段。在健康方面,Google投资的23andMe,因为未能达到严格的医疗标准,所以FDA就把它叫停了。国内也有一些在做基因健康方面的公司,也被中国的主管部门叫停。临床方面,国外在孕期、新生儿、遗传疾病、癌症和传染病都有相关应用。现在国内批准的个人医疗业务是今年5月份华大刚批下来的无创产前筛查。

医疗服务需要得到卫生和药监部门的监管,这也是正常的,因为关乎生命健康,处理的方式需要比较谨慎,但是政府整体上还是鼓励的。面向个人的应用业务无论在国内或者国外,现在都处在一个早期阶段,上升空间比较大。

生物医学互助平台Biomedlink问:大数据现在在生物领域已经解决了哪些问题?未来有可能会解决哪些问题?

大数据技术对于这个领域来说是一个基础的工具。工欲善其事,必先利其器,大数据技术可以向生物学家和医生提供高效易用并可扩展的分析工具。

并且,现在主流的大数据技术不是高成本的超算技术,而是用相对廉价的计算资源来做,所以实际上是降低了计算成本。这一点非常重要,降低计算成本意味着普及,以前很多科研和医疗机构无法承受的昂贵的计算能力变得可以接受。所以会有更多人参与到这个行业里来,我相信大数据技术会对这个行业有正向的促进作用。至于说解决疾病健康这类核心问题,还得靠领域内的生物学家、医生、药企的协同努力,大数据技术只是一个好用的工具帮助他们去做事情而已。

问:你们Genedock的切入点在哪里?你们现在已经在做哪些具体的业务?

我们的工作在于解决大量基因数据传输、存储、融合、计算、协作等问题。提供开放的接口,让用户能够方便地来管理和操作数据。然后我们也在跟一些生物信息方面的业务团队合作,因为他们在计算技术方面不是很擅长,我们就是在帮他们解决这样的问题。

问:对于你们来说,现在是一个积累的过程吗?

是的,需要积累的东西很多。生物领域和互联网数据在很多地方有很大的差异,包括安全性和隐私性的要求、数据的存储方式、处理流程、分析结果的质量控制。所以怎么样在这些环节形成标准化,是比较重要且需要长期积累的事。

问:在国内有跟你们定位一样的团队吗?

国内有一些团队在做跟我们做差不多的工作,一些成熟的商业公司也正在考虑用商业云的解决方案。不过,从定位上我们是聚焦于数据技术在这个领域应用的,在业务面向上会有一些差别。我们希望能够帮助到行业里的其他人,结合生物技术和数据技术,大家互补协作是最有效率的方式。

国外做基因数据服务的公司已经有不少,比较成熟的公司包括Google投资的DNANexus,SevenBridges Genomics,NextCode,另外新兴的公司也很多。

生物医学互助平台Biomedlink问:你们现在使用的是什么语言?

我们后端和web现在是以Python为主,有少量的Java代码,前端就是html、JS这样的标准语言。我们也在考虑用Golang。

问:在生物信息学领域,Python和Perl谁更强大、易用、代表着未来的发展方向?

其实生物信息软件用什么语言写的都有,现在生物信息领域具体的算法并没有统一的金标准。针对不同的领域和问题,会有不同的解决方案,也就形成不同的软件包,有用Perl,有用R,有的是Python写的,有Java,有C++,也有C,也不存在那种语言更强大更适用的问题。我们选用Python的主要原因是,这是一个开发效率比较高的胶水语言。现在阶段我们的主要目标是更方便地整合这些已有的工具,提供更好的接口。因为对于一个用户来讲他不可能熟悉这么多语言或者熟悉这么多的APP的使用,我们是想降低使用难度。你可以自助利用我们配置好的APP把工作流搭建起来。然后调度和运行对用户来说是完全透明的,这会显着降低了用户使用成本。

问:你们现在团队大概有多少人?

我们团队现在8个人,都是工程师,不过我们开发的服务其实相对更硬一些,对工程师的需求还是很大,前后端工程师都有需求,尤其是擅长分布式系统和算法的数据工程师以及数据可视化专长的前端工程师。

问:你觉得什么样的人适合加入你们?

我们做的是跨界并且前沿的领域,我们在用数据技术解决生命科学和医疗的问题,所以需要对方是一个充满好奇心并有很强学习能力的人,重视健康,最好能对医疗健康领域感兴趣。另外,热爱数据,喜欢用数据来描述和解决问题,也是一个加分项。我觉得真正能让大数据产生价值的人是需要有丰富想象力并带有理想主义精神的,也就是像我这样的数据控,相信我们正在解决的问题是深刻而有意义的。

来源:图灵访谈

为你推荐

药价查询,药价查询,全国已有29个省、市及新疆生产建设兵团上线定点药店比价小程序资讯

药价查询,药价查询,全国已有29个省、市及新疆生产建设兵团上线定点药店比价小程序

据新闻联播报道,国家医疗保障局消息,截至目前,全国已有29个省(自治区、直辖市)及新疆生产建设兵团上线定点药店比价小程序,可实现药品价格在手机上一键查询、实时比对和位...

2025-02-22 21:28

CDE:晚期胃癌新药临床试验设计指导原则资讯

CDE:晚期胃癌新药临床试验设计指导原则

胃癌(Gastric cancer, GC) 是我国高发的消化系统恶性肿瘤, 其新发病例数和死亡病例数分别位列我国恶性肿瘤发病和死亡的第 5 位和第 3 位。

2025-02-21 21:19

首款依视路星趣控眼镜于上海眼镜展全球首秀 专为近视管理设计 延缓中国儿童青少年近视进展资讯

首款依视路星趣控眼镜于上海眼镜展全球首秀 专为近视管理设计 延缓中国儿童青少年近视进展

依视路星趣控眼镜提供符合人体工程学设计的镜架,满足不同年龄段的孩子在面部结构和尺寸上的显著差异,尺码范围广,覆盖38号至50号,为3-5岁儿童,6-9岁和10-12岁青少年年龄段提...

2025-02-21 17:33

恒宇医疗完成超亿元融资,加速构建全球领先的血管介入腔内影像学平台资讯

恒宇医疗完成超亿元融资,加速构建全球领先的血管介入腔内影像学平台

恒宇医疗成立于2016年,是一家专注于光学与超声医用成像技术及激光消蚀技术研究的高科技企业。

2025-02-21 14:07

百林科完成A+轮战略融资数亿元,多家投资机构联合投资资讯

百林科完成A+轮战略融资数亿元,多家投资机构联合投资

百林科成立于2021年9月10日,是一家专注于疫苗、抗体药物、重组蛋白、细胞治疗、基因治疗、血液制品以及其他生物制品关键工艺设备与耗材研发和制造的高科技企业。

2025-02-21 13:30

深研生物完成超3亿元B+轮融资,越秀产业基金领投资讯

深研生物完成超3亿元B+轮融资,越秀产业基金领投

深研生物成立于2014年,是一家专注于细胞与基因治疗(CGT)领域的高新技术企业,致力于为核心技术与设备的自主研究和开发提供整体解决方案。

2025-02-21 13:23

阿斯利康以1.6亿美元收购珐博进中国,获得罗沙司他在中国的独家权利资讯

阿斯利康以1.6亿美元收购珐博进中国,获得罗沙司他在中国的独家权利

昨日(2月20日)晚间,阿斯利康在其官微宣布与珐博进有限公司达成协议,将以约1 6亿美元收购珐博进中国。

2025-02-21 10:20

快速崛起的中国创新药公司,真实生物赴港IPO资讯

快速崛起的中国创新药公司,真实生物赴港IPO

2月18日据港交所披露,真实生物科技有限公司(以下简称“真实生物“)递交上市申请书,中金公司为其独家保荐人。这家成立于2012年的生物科技企业,以创新药物研发为核心,专注于...

2025-02-20 20:57

华东医药经皮肾小球滤过率测量设备获批,有望提供GFR监测新方法资讯

华东医药经皮肾小球滤过率测量设备获批,有望提供GFR监测新方法

2025年2月19日晚,华东医药(000963 SZ)公告,其全资子公司杭州中美华东制药有限公司申报的创新产品三类医疗器械经皮肾小球滤过率测量设备注册申请获得上市批准。

2025-02-19 19:15

国采中选企业满足一定条件,可变更药品上市许可持有人及生产企业、增加规格包装等,第一批名单发布资讯

国采中选企业满足一定条件,可变更药品上市许可持有人及生产企业、增加规格包装等,第一批名单发布

2月18日,国家组织药品联合采购办公室发布《关于国家组织药品集中采购部分中选药品信息变更的通知(第一批)》,涉及到5批国采的15个品种。

2025-02-19 18:26

凯米生物完成超亿元Pre-A轮融资首关,加速肿瘤治疗性疫苗全球布局资讯

凯米生物完成超亿元Pre-A轮融资首关,加速肿瘤治疗性疫苗全球布局

此次融资将用于加速核心产品SN3001(前列腺癌治疗性疫苗)、SN2001(慢性乙肝免疫治疗疫苗)的全球临床,以及基于SynNeogen®核心技术平台的肿瘤治疗性疫苗产品持续布局。

2025-02-19 13:50

潜在交易金额超12亿美元,石药集团ADC癌症新药达成国际授权合作资讯

潜在交易金额超12亿美元,石药集团ADC癌症新药达成国际授权合作

今日(2月19日),石药集团发布公告称,其控股子公司巨石生物与Radiance Biopharma达成协议,Radiance Biopharma将获得巨石生物自主研发的重组抗人类受体酪氨酸激酶样孤儿受体1...

2025-02-19 11:21

又一玩家加入,来自恒瑞医药的“近视神药”上市申请获受理资讯

又一玩家加入,来自恒瑞医药的“近视神药”上市申请获受理

近日,恒瑞医药发布公告宣布,公司已经收到国家药监局下发的《受理通知书》,旗下产品 HR19034滴眼液的药品上市许可申请获得国家药监局受理。

2025-02-19 10:47

国家医保局:医保领域2025年度第一批重点事项清单资讯

国家医保局:医保领域2025年度第一批重点事项清单

2025年底前,全国80%左右统区基本实现与定点医药机构即时结算。基本实现医保部门与医药企业对集采药品的直接结算,加快推动与医药企业对集采医用耗材、国谈药的直接结算。

2025-02-18 21:14

“悦如初,达新程” 2025特应性皮炎免疫创新学术会议于成都举办资讯

“悦如初,达新程” 2025特应性皮炎免疫创新学术会议于成都举办

特应性皮炎是一种慢性、复发性、炎症性皮肤病,在非致命性皮肤疾病中疾病负担位列第一,给患者个人及家庭带来沉重的生理、心理负担,造成长期的社会影响。

2025-02-18 10:58

第九十批仿制药参比制剂目录资讯

第九十批仿制药参比制剂目录

国家药品监督管理局发布仿制药参比制剂目录(第九十批)。

2025-02-17 22:22

拜耳在欧盟申请EyleaTM 8mg治疗间隔延长至6个月资讯

拜耳在欧盟申请EyleaTM 8mg治疗间隔延长至6个月

拜耳已向欧洲药品管理局(EMA)提交申请,将EyleaTM 8mg(阿柏西普8mg,114 3mg ml注射液)用于治疗两种主要视网膜疾病,即新生血管(湿性)年龄相关性黄斑变性(nAMD)和糖...

2025-02-17 19:55

EyleaTM 8mg延长给药间隔治疗湿性年龄相关性黄斑变性的长期疗效和安全性在三年时得到证实资讯

EyleaTM 8mg延长给药间隔治疗湿性年龄相关性黄斑变性的长期疗效和安全性在三年时得到证实

近日,在于美国迈阿密举行的第22届新生血管年会上,拜耳及其合作伙伴Regeneron公布了PULSAR开放标签扩展研究治疗新生血管(湿性)年龄相关性黄斑变性(nAMD)患者第三年的临床试验结果。

2025-02-17 19:44

备思复(维恩妥尤单抗)联合疗法全国首张处方落地,开启泌尿肿瘤精准治疗新篇章资讯

备思复(维恩妥尤单抗)联合疗法全国首张处方落地,开启泌尿肿瘤精准治疗新篇章

2025年2月17日,北京大学肿瘤医院泌尿肿瘤暨黑色素瘤肉瘤内科主任、中国临床肿瘤学会副理事长兼秘书长郭军教授为一位晚期尿路上皮癌患者开具备思复(维恩妥尤单抗)联合帕博利珠...

2025-02-17 19:38

安诊儿率先融合DeepSeek-R1,升级大模型底座能力资讯

安诊儿率先融合DeepSeek-R1,升级大模型底座能力

2月16日,由浙江省卫健委和蚂蚁集团联合推出的 "安诊儿 "宣布融合DeepSeek-R1,升级大模型底座能力,成为国内首批支持专业推理模型的AI医疗健康应用之一。

2025-02-16 15:46