生物信息分析过程中的一些常见问题(结果文件,软件bug等)
Rstudio安装后出现白屏
故障截图
如图,Rstudio界面可以打开,但是只有menu有内容,主体部分为白色。
故障原因
Rstudio不支持中文用户名
解决方法 参考源博文
解决方法1:创建一个新账户
创建一个新的英文账户,使用管理员账户重新开通一个账户,然后使用该用户打开Rstudio软件。windows系统支持多用户使用。
方法二:修改现有用户名(不推荐)
修改当前账户,该方法不太推荐普通用户尝试,因为即使修改了账户为英英文也不行,因为还没有修改该账户默认目录,这个需要修改注册表,操作起来比较麻烦。
打开环境变量对话框
修改环境变量
修改注册表
Blast比对结果各列含义
用blast软件的--outfmt 6参数,得到的表格化输出,每列含义如下:
| 列数 | 名称 | 释义1 | 释义2 |
|---|---|---|---|
| 1. | qseqid | query (e.g., gene) sequence id | 查询序列 |
| 2. | sseqid | subject (e.g., reference genome) sequence id | 目标序列 |
| 3. | pident | percentage of identical matches | 一致性 |
| 4. | length | alignment length | 比对长度 |
| 5. | mismatch | number of mismatches | 错配数 |
| 6. | gapopen | number of gap openings | gap数 |
| 7. | qstart | start of alignment in query | 查询序列起始位置 |
| 8. | qend | end of alignment in query | 查询序列终止位置 |
| 9. | sstart | start of alignment in subject | 目标序列起始位置 |
| 10. | send | end of alignment in subject | 目标序列终止位置 |
| 11. | evalue | expect value | E值 |
| 12. | bitscore | bit score | 打分值 |
测序质量及其计算方法
测序仪在测得碱基时,会评估每一个碱基的错误率,用于后续分析。
为了方便使用,通常错误率会转换为质量值,转换后的质量值称为Phred score,其转换公式为:
$$
Q=-10\log_{10}P
$$
注:Q:测序质量值(Phred score);P:碱基的测序错误率。
测序碱基的错误率越小,质量值越高.
碱基准确率与测序质量值(phred score)的关系
| 质量值Q | 错误率P | 准确率 |
|---|---|---|
| 10 | 10% | 90% |
| 20 | 1% | 99% |
| 30 | 0.1% | 99.9% |
| 40 | 0.01% | 99.99% |
在FASTQ文件中,为了更方便地存储phred score,会被编码为一个字符,这样每个质量值仅使用1个字节即可,可以大量节省存储空间。
目前常见的转换方法有两种:
- Phred+33: Q+33对应的ASCII字符
- Phred+64: Q+64对应的ASCII字符
常见的测序平台对应的编码方式
| 最小Phred值 | 最大Phred值 | ASCII计算方法 | |
|---|---|---|---|
| Sanger | 0 | 40 | Phred+33 |
| Solexa | -5 | 40 | Phred+64 |
| Illumina 1.3+ | 0 | 40 | Phred+64 |
| Illumina 1.5+ | 3 | 40 | Phred+64 |
| Illumina 1.8+ | 0 | 41 | Phred+33 |
转换完之后的Phred值以一个字符形式。
以目前市面上最常见的Phred+33为例,fastq中质量值为I的碱基表示Phred Score为40,即万分之一的错误率(0.01%) 。
测序质量值与ASCII编码的关系(以Phred+33为例)
| Symbol | ASCII Code | Q-Score |
|---|---|---|
| ! | 33 | 0 |
| “ | 34 | 1 |
| # | 35 | 2 |
| $ | 36 | 3 |
| % | 37 | 4 |
| & | 38 | 5 |
| ‘ | 39 | 6 |
| ( | 40 | 7 |
| ) | 41 | 8 |
| * | 42 | 9 |
| + | 43 | 10 |
| , | 44 | 11 |
| - | 45 | 12 |
| . | 46 | 13 |
| / | 47 | 14 |
| 0 | 48 | 15 |
| 1 | 49 | 16 |
| 2 | 50 | 17 |
| 3 | 51 | 18 |
| 4 | 52 | 19 |
| 5 | 53 | 20 |
| 6 | 54 | 21 |
| 7 | 55 | 22 |
| 8 | 56 | 23 |
| 9 | 57 | 24 |
| : | 58 | 25 |
| ; | 59 | 26 |
| < | 60 | 27 |
| = | 61 | 28 |
| > | 62 | 29 |
| ? | 63 | 30 |
| @ | 64 | 31 |
| A | 65 | 32 |
| B | 66 | 33 |
| C | 67 | 34 |
| D | 68 | 35 |
| E | 69 | 36 |
| F | 70 | 37 |
| G | 71 | 38 |
| H | 72 | 39 |
| I | 73 | 40 |
| J | 74 | 41 |