一起学下一代测序技术(NGS)数据分析之数据质控

医疗器械 来源:基因检测与解读
2015
12/07
12:35
基因检测与解读 医疗器械

拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC,今天我们来介绍一下该软件的用法。

首先安装FastQC,下载地址http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc:其实fastqc是免安装的,下载后解压缩,进入文件夹,输入命令chmod 755 fastqc,再运行。/fastqc就可以启动图文界面了,通过鼠标找到你的fastq文件,等待软件载入,结果分为如下几个部分


结果分为绿色的“PASS”,黄色的“WARN”和红色的“FAIL”。

1、Basic statistics


Total sequence代表reads数目,数据量等于reads数乘以每条reads的长度即41399965X125=5.2X109,即5.2G数据量

2、Per base sequence quality


quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。图像如上面例子,横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。

若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”. 在测序早期经常会有不合格的测序reads,随着技术的发展,现在的测序质量已经非常高,以下为药明康德hiseq2500的数据质量,我们可以看到测序质量非常好。


3、Per Sequence Quality Scores


每条reads的quality的均值的分布,横轴为quality,纵轴是reads数目;

4、Per Base Sequence Content


对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布,横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。

当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。

5、Per Base GC Content


对所有reads的每个位置,统计GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”

6、Per Sequence GC Content


统计reads的平均GC含量的分布,红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。

偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”

7、Per Base N Content


当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率,正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。

8、Sequence Length Distribution


reads长度的分布。当reads长度不一致时报“WARN”;当有长度为0的read时报“FAIL”

9、Duplicate Sequences


统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication),横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~10%的reads是观察到两个重复的,~2%是观察到三次重复的,依此类推。

可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。

当非unique的reads占总数的比例大于20%时,报“WARN”;当非unique的reads占总数的比例大于50%时,报“FAIL”。

备注:本文参考静渊的学习日志

来源:基因检测与解读

为你推荐

“和合共生,健康共护”四价HPV疫苗男性适应证上市暨“HPV男女共防计划”启动新闻发布会成功举办,共筑HPV预防新生态资讯

“和合共生,健康共护”四价HPV疫苗男性适应证上市暨“HPV男女共防计划”启动新闻发布会成功举办,共筑HPV预防新生态

今日(1月18日),默沙东(默沙东是美国新泽西州罗威市默克公司的公司商号)举办的“和合共生,健康共护”四价HPV(人乳头瘤病毒)疫苗男性适应证上市暨“HPV男女共防计划”启动...

2025-01-18 18:31

四同药品价格治理已基本实现,正建设全国挂网药品价格一览表资讯

四同药品价格治理已基本实现,正建设全国挂网药品价格一览表

目前,我们正在建设全国挂网药品价格一览表,全量汇总展示各地挂网价格信息并对首涨、高涨幅等异常价格行为予以标识,敦促各地持续纠正不合理的挂网高价。

2025-01-18 12:15

关于丙类药品目录,国家医保局最新的思考与规划,2025年发布第一版资讯

关于丙类药品目录,国家医保局最新的思考与规划,2025年发布第一版

丙类目录与每年的基本医保药品目录调整同步开展,计划于今年年内发布第一版。

2025-01-18 11:34

2025年全国80%左右医保统筹地区基本实现即时结算,2026年底全部实现即时结算资讯

2025年全国80%左右医保统筹地区基本实现即时结算,2026年底全部实现即时结算

1月16日,国家医疗保障局办公室正式对外发布《关于推进基本医保基金即时结算改革的通知》。根据通知,以全国统一的医保信息平台为支撑,2025年全国80%左右统筹地区基本实现即时...

2025-01-18 11:20

2024年底,60岁及以上人口3.1亿,占全国人口的22.0%资讯

2024年底,60岁及以上人口3.1亿,占全国人口的22.0%

年末全国人口(包括31个省、自治区、直辖市和现役军人的人口,不包括居住在31个省、自治区、直辖市的港澳台居民和外籍人员)140828万人,比上年末减少139万人。全年出生人口954...

2025-01-17 14:56

赛诺菲荣膺“杰出雇主2025”桂冠,连续五年傲立榜首资讯

赛诺菲荣膺“杰出雇主2025”桂冠,连续五年傲立榜首

作为10多年来首个且唯一连续五年荣获此殊荣的企业,赛诺菲再次彰显了其在企业文化、人才战略、多元发展及员工培养等方面的卓越成就。

2025-01-17 11:02

又一款国产三代EGFR-TKI抑制剂获批上市资讯

又一款国产三代EGFR-TKI抑制剂获批上市

昨日(1月16日),据国家药监局官网显示,奥赛康药业的1类创新药利厄替尼片(limertinib ASK120067,商品名:奥壹新)获批上市,用于治疗既往接受表皮生长因子受体酪氨酸激酶抑制...

2025-01-17 10:31

增辉生命,默沙东中国再度荣膺“中国杰出雇主”资讯

增辉生命,默沙东中国再度荣膺“中国杰出雇主”

1月16日,由全球权威的杰出雇主调研机构(Top Employers Institute)颁布的“杰出雇主2025”榜单正式揭晓

2025-01-16 22:48

CDE:放射性治疗药物申报上市临床风险管理计划技术指导原则资讯

CDE:放射性治疗药物申报上市临床风险管理计划技术指导原则

本指导原则将针对上市后临床风险管理计划、说明书中安全性相关内容、 患者指导手册的撰写提供具体指导意见。

2025-01-16 20:41

全球首款狂犬病双抗药物国内申报上市资讯

全球首款狂犬病双抗药物国内申报上市

日前,据国家药监局药审中心网站显示,智翔金泰的1类新药斯乐韦米单抗在国内申报上市。

2025-01-15 17:02

国家市场监督管理总局发布《医药企业防范商业贿赂风险合规指引》资讯

国家市场监督管理总局发布《医药企业防范商业贿赂风险合规指引》

本指引所称的商业贿赂, 是指采用财物或者其他手段贿赂交易相对方的工作人员、 受交易相对方委托办理相关事务的单位或者个人、 利用职权或者影响力影响交易的单位或者个人,...

2025-01-14 23:38

阿斯利康与宜联生物达成临床研究合作,共同探索联合治疗创新方案资讯

阿斯利康与宜联生物达成临床研究合作,共同探索联合治疗创新方案

双方将共同启动一项多中心、开放性、I Ib期研究,旨在评估两款药物联合治疗在实体肿瘤患者中的安全性、有效性和药代动力学。

2025-01-14 18:36

医疗科技国际化之路:新加坡如何提供全链条支持?资讯

医疗科技国际化之路:新加坡如何提供全链条支持?

随着中国医疗科技领域的快速发展,越来越多的企业具备了国际化发展的能力,正在“走出去”开辟新的市场。

2025-01-14 15:56

NVIDIA与多家行业顶尖机构达成深度合作,共促医疗健康产业蓬勃发展资讯

NVIDIA与多家行业顶尖机构达成深度合作,共促医疗健康产业蓬勃发展

在日前举办的摩根大通医疗健康大会上,NVIDIA 宣布与多家行业领先机构达成合作,这类新的合作旨在通过加速药物发现、提升基因组研究,以及利用代理式和生成式 AI 开创先进医...

2025-01-14 13:26

老牌上市药企终止PD-1项目,计提资产减值准备1.75亿元资讯

老牌上市药企终止PD-1项目,计提资产减值准备1.75亿元

近日,丽珠医药集团发布公告称,对公司及下属子公司截至2024年12月31日合并报表范围内存在减值迹象的资产进行了减值测试,并对其中存在减值迹象的资产相应计提了减值准备。

2025-01-14 10:13

尊享e生2025升级:首次全场景放开外购药械,医院药品覆盖数量再增资讯

尊享e生2025升级:首次全场景放开外购药械,医院药品覆盖数量再增

1月13日,众安保险举办“与10光,共生长”尊享e生十周年产品升级发布会,正式发布尊享e生2025版,并推出众安健康险未来将主打的两大产品系列——面向健康人群的“尊享系列”,以...

2025-01-13 20:17

PLA材料的医美应用:安全与效果的双重考验资讯

PLA材料的医美应用:安全与效果的双重考验

聚乳酸PLA,作为医美行业面部填充剂历经了3个时代大约20多年的发展,大体可分为1 0、2 0、3 0三个不同的时代;即1 0-结晶片状;2 0-普遍表面粗糙的多孔微球或实心微球;3 ...

2025-01-13 19:53

国家医保局:开展2025年定点医药机构违法违规使用医保基金自查自纠工作,肿瘤类、重症医学类、麻醉类、零售药店典型问题清单资讯

国家医保局:开展2025年定点医药机构违法违规使用医保基金自查自纠工作,肿瘤类、重症医学类、麻醉类、零售药店典型问题清单

2025年3月底前,各级医保部门根据本地化问题清单,对辖区内所有定点医疗机构和定点零售药店2023-2024年医保基金使用情况开展自查自纠。2025年4月起,国家医保局将对全国定点医药...

2025-01-13 17:32

全球首个超长效PCSK9单抗获批上市资讯

全球首个超长效PCSK9单抗获批上市

瑞卡西单抗注射间隔可长达8周,突破了目前国内外已获批的PCSK9单抗需要每2周、4周或6周的注射频次。

2025-01-13 13:17

好大夫正式牵手蚂蚁集团,共同推进“AI+医疗”创新资讯

好大夫正式牵手蚂蚁集团,共同推进“AI+医疗”创新

蚂蚁集团收购好大夫在线尘埃落定。1月11日,在2025年好大夫峰会上,双方在收购完成后首度携手亮相。好大夫在线创始人王航现场表示,共同的使命和愿景让双方走到了一起,后续好大...

2025-01-11 18:05