单位:链(chain)→ 条形码(barcode)→ 受体(receptor)
第一个关键概念是数据操作的基本单位,包括:
-
链(Chain)是一条 V(D)J 序列记录(read/contig/分子),例如带有 V(D)J 基因及其他信息(包括基因表达与免疫原性)的 TRA、TRB、IGH 或 IGL。它是最小的数据单位,是一切的基石。数据导入(ingest)后保持不变,因此你可以随时下钻到其精确的核苷酸/氨基酸序列及注释。
-
条形码(Barcode)是一个物理容器,可包含 0、1 或多条链。
-
单细胞:一个液滴/细胞条形码。
- 空间转录组:一个点位(spot)条形码(可能捕获来自多个细胞的转录本)。
- 批量测序(Bulk):不使用“barcode”这个术语,实质上把每条链都视作独立的“条形码”。
它是“存放”相关生物学数据的生物学单位,用于对相同的链进行聚合,并统计来自不同条形码的同一受体的计数。
-
受体(Receptor)是链的逻辑分组,代表一个用于下游分析与报告的生物学受体实例。所有免疫受体库统计或受体追踪都在受体层面计算。受体由用户指定的受体模式(schema)定义,包含:
-
受体特征:通常为 CDR3 氨基酸(AA)序列,可选地与 V 基因(以及需要时的 J 基因或长度)组合。
- 受体链:例如单链、α+β(TCR)、重链+轻链(BCR),或其他明确定义的组合。在多链情形(如双 α)中,需要明确你的配对/合并规则。
总结:immundata 以链存储信息,条形码把多条链打包在一起,而受体是进行受体库统计的最小单位。
| 术语 | 通俗解释 | immundata 中的表示 | 角色 |
|---|---|---|---|
| Chain(链) | 来自一次 read 或 contig 的单条 V(D)J 转录本(如 TRA 或 IGH)。 | 物理表 idata$annotations 中的一行;保留 locus、cdr3、umis/reads 及其他关键重排特征。 |
原始数据单位——原子级构件。 |
| Barcode / Cell | 捕获该链的液滴(10x)、点位(Visium)或孔板孔。 | 列 imd_barcode。 |
物理集合——将共享同一捕获隔间的链分组。 |
| Receptor(受体) | 你要分析的生物学受体:来自同一细胞的一条单链 或 一对(αβ、重-轻)链。 | 虚拟表 idata$receptors;唯一 ID imd_receptor_id。 |
逻辑单位——AIRR 统计的最小对象。 |
| Repertoire | 按样本、供体、细胞簇等分组的一组受体。 | 物理表 idata$repertoires;唯一 ID imd_repertoire_id;包含你选择的分组列。 |
聚合单位——用于比较分析的更高层级分组。 |