N50(常用于基因组/转录组组装)指一种衡量组装连续性(contiguity)的统计指标:把所有 contig/scaffold 按长度从长到短排序并累加,当累计长度达到总组装长度的 50% 时,对应的那条序列长度就是 N50。一般来说,N50 越大,组装越“连贯”(但不等于越准确;仍需结合错误率、完整性等指标)。
/ˌɛn ˈfɪfti/
The assembly has an N50 of 2 megabases.
这个组装的 N50 是 2 兆碱基(Mb)。
After polishing and removing contaminants, the genome’s N50 increased, but we still checked BUSCO completeness to avoid overestimating quality.
在校正(polishing)并去除污染序列后,基因组的 N50 提高了,但我们仍用 BUSCO 完整性来核验,避免高估组装质量。
N50 是一种“命名式”缩写:N 常被理解为 number/length statistic 的标记,50 表示阈值为 **50%**。它源自基因组学与生物信息学中对序列长度分布进行概括的需求,后来也衍生出 N90、N75 等类似指标。