拿到基因测序公司的原始数据后,一般是clean data又称PF data,首先要做的就是查看数据量够不够以及测序的质量怎么样,目前最为流行的数据质量查看软件就是FastQC,今天我们来介绍一下该软件的用法。
首先安装FastQC,下载地址http://www.bioinformatics.babraham.ac.uk/projects/download.html#fastqc:其实fastqc是免安装的,下载后解压缩,进入文件夹,输入命令chmod 755 fastqc,再运行。/fastqc就可以启动图文界面了,通过鼠标找到你的fastq文件,等待软件载入,结果分为如下几个部分
结果分为绿色的“PASS”,黄色的“WARN”和红色的“FAIL”。
1、Basic statistics
Total sequence代表reads数目,数据量等于reads数乘以每条reads的长度即41399965X125=5.2X109,即5.2G数据量
2、Per base sequence quality
quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。图像如上面例子,横轴代表位置,纵轴quality。红色表示中位数,黄色是25%-75%区间,触须是10%-90%区间,蓝线是平均数。
若任一位置的下四分位数低于10或中位数低于25,报“WARN”;若任一位置的下四分位数低于5或中位数低于20,报“FAIL”. 在测序早期经常会有不合格的测序reads,随着技术的发展,现在的测序质量已经非常高,以下为药明康德hiseq2500的数据质量,我们可以看到测序质量非常好。
3、Per Sequence Quality Scores
每条reads的quality的均值的分布,横轴为quality,纵轴是reads数目;
4、Per Base Sequence Content
对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布,横轴为位置,纵轴为百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。
当任一位置的A/T比例与G/C比例相差超过10%,报“WARN”;当任一位置的A/T比例与G/C比例相差超过20%,报“FAIL”。
5、Per Base GC Content
对所有reads的每个位置,统计GC含量,如果建库足够均匀,reads的每个位置应当是没有差异的,所以GC含量的线应当平行于X轴,反映样品(基因组、转录组等)的GC含量。当部分位置GC含量出现bias时,往往提示我们有overrepresented sequence的污染。当所有位置的GC含量一致的表现出bias时,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。当任一位置的GC含量偏离均值的5%时,报“WARN”;当任一位置的GC含量偏离均值的10%时,报“FAIL”
6、Per Sequence GC Content
统计reads的平均GC含量的分布,红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。
偏离理论分布的reads超过15%时,报“WARN”;偏离理论分布的reads超过30%时,报“FAIL”
7、Per Base N Content
当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率,正常情况下N的比例是很小的,所以图上常常看到一条直线,但放大Y轴之后会发现还是有N的存在,这不算问题。当Y轴在0%-100%的范围内也能看到“鼓包”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报“WARN”;当任意位置的N的比例超过20%,报“FAIL”。
8、Sequence Length Distribution
reads长度的分布。当reads长度不一致时报“WARN”;当有长度为0的read时报“FAIL”
9、Duplicate Sequences
统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication),横坐标是duplication的次数,纵坐标是duplicated reads的数目,以unique reads的总数作为100%。 上图的情况中,相当于unique reads数目~10%的reads是观察到两个重复的,~2%是观察到三次重复的,依此类推。
可以想象,如果原始数据很大(事实往往如此),做这样的统计将非常慢,所以fastqc中用fq数据的前200,000条reads统计其在全部数据中的重复情况。大于75bp的reads只取50bp(不知道怎么选的)进行比较。但由于reads越长越不容易完全相同(由测序错误导致),所以其重复程度仍有可能被低估。
当非unique的reads占总数的比例大于20%时,报“WARN”;当非unique的reads占总数的比例大于50%时,报“FAIL”。
备注:本文参考静渊的学习日志
来源:基因检测与解读
为你推荐

带状疱疹疫苗“遇冷”,百克生物2024年净利润腰斩
近日,国内疫苗龙头企业百克生物发布2024年年报,数据显示,其报告期内实现营收12 29亿元,同比下降32 64%;归属于上市公司股东的净利润2 32亿元,同比下降53 67%。对于营收...
2025-04-23 12:59

重庆常用药联盟接续集采中选结果
近日,重庆常用药联盟接续集采中选情况公布,该联盟由重庆牵头,联合湖北、广西、海南、贵州、云南、青海、宁夏、新疆及新疆生产建设兵团等十省(区、市)开展的药品集中带量采...
2025-04-21 18:48

全周期智控慢病,诺和诺德与京东健康开启战略合作
2025年4月21日,全球领先的生物制药公司诺和诺德与京东健康在北京正式签署战略合作协议,标志着双方在糖尿病和体重管理领域的合作进入新阶段。依托诺和诺德百年深耕慢病领域的专...
2025-04-21 15:57

康方生物1类新药依若奇单抗上市申请获批,用于中重度斑块状银屑病成人患者
该药是我国第一个且唯一获批上市的IL-12 IL-23“双靶向”单克隆抗体新药,是康方生物自身免疫性疾病领域首个获批上市的一类新药。
2025-04-21 13:39

阿斯利康乳腺癌1类创新药卡匹色替片中国获批
该药适用于联合氟维司群用于转移性阶段至少接受过一种内分泌治疗后疾病进展,或在辅助治疗期间或完成辅助治疗后12个月内复发的激素受体(HR)阳性、人表皮生长因子受体2(HER2)...
2025-04-21 11:02

辉瑞宣布终止一款口服GLP-1减肥药的临床开发
近日,辉瑞在其官网宣布,决定终止开发口服胰高血糖素样肽-1受体(GLP-1R)激动剂Danuglipron(PF-06882961),原因系在一项有关用药剂量的临床试验中,一名患者出现了可能由该...
2025-04-21 10:29

福建省医保局印发单列门诊统筹支付医保药品目录(2024年版)
根据2024年6月发布的《福建省医保药品单列门诊统筹支付管理办法(试行)》,为了让参保患者无需住院、在门诊就医也能用上国家谈判药品、享受医保待遇,将适用于门诊治疗、使用周...
2025-04-20 13:34

首批中国消费名品名单,医药健康企业有哪些?
近日,工业和信息化部办公厅发布首批中国消费名品名单,分为中国消费名品名单和中国消费名品成长企业名单。首批中国消费名品名单共包括93个企业品牌和43个区域品牌。中国消费名...
2025-04-20 11:17

携手共绘“个性化近视手术”新蓝图:爱尔眼科与爱尔康启动100家医院全光塑技术战略合作
双方将以技术共享为核心,以人才培养为支撑,以科研协作为纽带,全力推进屈光手术标准化诊疗体系建设,加速前沿技术在临床领域的普及应用
文/ 屈慧莹 2025-04-19 23:35

CDE:简化港澳已上市传统口服中成药内地上市注册审批申报资料及技术要求
允许香港、澳门特区本地登记的生产企业持有,并经香港、澳门特区药品监督管理部门批准上市且在香港、澳门特区使用15年以上,生产过程符合药品生产质量管理规范(GMP)要求的传统...
2025-04-18 18:54

君德医药完成近亿元A轮融资,加速推进创新药械组合平台建设与产品上市
本轮融资主要用于首个减重口服器械的注册及生产销售,以及加速多个核心创新药械组合技术平台的产品管线研发进程。
2025-04-18 14:34

礼来首个小分子口服GLP-1RA药物orforglipron 3期临床研究成功
Orforglipron是首个成功完成3期临床研究的小分子GLP-1类药物,各剂量组平均A1C降幅为1 3%至1 6%
2025-04-18 14:12