0%

生物信息分析中常见问题

生物信息分析过程中的一些常见问题(结果文件,软件bug等)

Rstudio安装后出现白屏

故障截图

如图,Rstudio界面可以打开,但是只有menu有内容,主体部分为白色。

Blank White Screen - RStudio IDE - RStudio Community

故障原因

Rstudio不支持中文用户名

解决方法 参考源博文

解决方法1:创建一个新账户

创建一个新的英文账户,使用管理员账户重新开通一个账户,然后使用该用户打开Rstudio软件。windows系统支持多用户使用。

方法二:修改现有用户名(不推荐)

修改当前账户,该方法不太推荐普通用户尝试,因为即使修改了账户为英英文也不行,因为还没有修改该账户默认目录,这个需要修改注册表,操作起来比较麻烦。

打开环境变量对话框
3
修改环境变量
4
修改注册表
5

Blast比对结果各列含义

用blast软件的--outfmt 6参数,得到的表格化输出,每列含义如下:

列数 名称 释义1 释义2
1. qseqid query (e.g., gene) sequence id 查询序列
2. sseqid subject (e.g., reference genome) sequence id 目标序列
3. pident percentage of identical matches 一致性
4. length alignment length 比对长度
5. mismatch number of mismatches 错配数
6. gapopen number of gap openings gap数
7. qstart start of alignment in query 查询序列起始位置
8. qend end of alignment in query 查询序列终止位置
9. sstart start of alignment in subject 目标序列起始位置
10. send end of alignment in subject 目标序列终止位置
11. evalue expect value E值
12. bitscore bit score 打分值

测序质量及其计算方法

测序仪在测得碱基时,会评估每一个碱基的错误率,用于后续分析。
为了方便使用,通常错误率会转换为质量值,转换后的质量值称为Phred score,其转换公式为:

$$
Q=-10\log_{10}P
$$

注:Q:测序质量值(Phred score);P:碱基的测序错误率。

测序碱基的错误率越小,质量值越高.

碱基准确率与测序质量值(phred score)的关系

质量值Q 错误率P 准确率
10 10% 90%
20 1% 99%
30 0.1% 99.9%
40 0.01% 99.99%

在FASTQ文件中,为了更方便地存储phred score,会被编码为一个字符,这样每个质量值仅使用1个字节即可,可以大量节省存储空间。

目前常见的转换方法有两种:

  1. Phred+33: Q+33对应的ASCII字符
  2. Phred+64: Q+64对应的ASCII字符

常见的测序平台对应的编码方式

最小Phred值 最大Phred值 ASCII计算方法
Sanger 0 40 Phred+33
Solexa -5 40 Phred+64
Illumina 1.3+ 0 40 Phred+64
Illumina 1.5+ 3 40 Phred+64
Illumina 1.8+ 0 41 Phred+33

转换完之后的Phred值以一个字符形式。

以目前市面上最常见的Phred+33为例,fastq中质量值为I的碱基表示Phred Score为40,即万分之一的错误率(0.01%) 。

测序质量值与ASCII编码的关系(以Phred+33为例)

Symbol ASCII Code Q-Score
! 33 0
34 1
# 35 2
$ 36 3
% 37 4
& 38 5
39 6
( 40 7
) 41 8
* 42 9
+ 43 10
, 44 11
- 45 12
. 46 13
/ 47 14
0 48 15
1 49 16
2 50 17
3 51 18
4 52 19
5 53 20
6 54 21
7 55 22
8 56 23
9 57 24
: 58 25
; 59 26
< 60 27
= 61 28
> 62 29
? 63 30
@ 64 31
A 65 32
B 66 33
C 67 34
D 68 35
E 69 36
F 70 37
G 71 38
H 72 39
I 73 40
J 74 41