Wir haben die Daten mit BWA 0.5.9-r16 dem UCSC Human Reference genome Build 37 zugeordnet. Wir haben zuerst jedes Lesepaar separat mit bwa aln abgebildet. Dann haben wir bwa sampe verwendet, um die gepaarten Lesevorgänge einer BAM9-Datei zuzuordnen. Die BAM-Datei wurde dann nach genomischer Position sortiert und mit PicardTools-1.32 SortSam indiziert. Um zu verhindern, dass PCR-Artefakte die Downstream-Analyse unserer Daten beeinflussen, haben wir Picard verwendet, um die doppelten Lesevorgänge zu markieren, die in der Downstream-Analyse ignoriert wurden. Wir haben GATK IndelRealigner für unsere Daten um bekannte Indels (ab 1KG Pilot) verwendet. Der IndelRealigner erstellt alle möglichen Leseausrichtungen anhand der Quelle und berechnet die Wahrscheinlichkeit, dass die Daten den Indel enthalten, basierend auf dem Lese-Pileup. Immer wenn die maximale Wahrscheinlichkeit ein Indel enthält, werden die Lesevorgänge entsprechend neu ausgerichtet. Jede Basis ist mit einem phred-skalierten Basisqualitätswert verknüpft. Die Kalibrierung von Phred-Scores ist von entscheidender Bedeutung, da sie in einigen der nachgelagerten Analysemodelle verwendet werden. Wir verwendeten GATK, um die Basenqualitäten in Bezug auf (i) den Basenzyklus, (ii) den ursprünglichen Qualitätsfaktor und (iii) den Dinukleotidkontext neu zu kalibrieren. Um Probleme zu minimieren, die sich aus Mapping-Problemen mit Indels ergeben, haben wir uns entschieden, eine zweite Runde der Indel-Neuausrichtung mit dem GATK IndelRealigner nach Familie und nicht nach Individuum durchzuführen. Für diese zweite Runde haben wir zwei Quellen möglicher Indels betrachtet: 1KG Phase 1 Indels und Indels, die von BWA in den GoNL-Daten ausgerichtet wurden.