we hebben de gegevens in kaart gebracht aan de UCSC human reference genome build 37 met behulp van BWA 0.5.9-r16. We hebben eerst elk leespaar afzonderlijk in kaart gebracht met behulp van bwa aln. Vervolgens hebben we bwa sampe gebruikt om de gepaarde reads samen in een BAM9 bestand in kaart te brengen. Het BAM-bestand werd vervolgens gesorteerd op genomische positie en geïndexeerd met behulp van PicardTools-1.32 SortSam. Om te voorkomen dat PCR-artefacten de stroomafwaartse analyse van onze gegevens beïnvloeden, gebruikten we Picard om de duplicaatlezingen te markeren, die in stroomafwaartse analyse werden genegeerd. We gebruikten GATK IndelRealigner op onze gegevens rond bekende indels (van 1kg Pilot). De IndelRealigner creëert alle mogelijke leesuitlijningen met behulp van de bron en berekent de waarschijnlijkheid van de gegevens die de indel op basis van de leesstapeling. Wanneer de maximale waarschijnlijkheid een indel bevat, worden de reads dienovereenkomstig aangepast. Elke base wordt geassocieerd met een phred-scaled basiskwaliteit score. Kalibratie van Phred scores is cruciaal omdat ze worden gebruikt in sommige van de downstream analyse modellen. We gebruikten GATK om de basiskwaliteiten te herkalibreren met betrekking tot (i) de basiscyclus, (ii) de oorspronkelijke kwaliteitsscore en (iii) dinucleotide context. Om problemen als gevolg van mapping problemen rond indels te minimaliseren, we besloten om een tweede ronde van Indel herschikking ondergaan met behulp van de GATK IndelRealigner per familie in plaats van per individu. Voor deze tweede ronde hebben we twee bronnen van mogelijke indels overwogen: 1kg Fase 1 indels en indels uitgelijnd door BWA in de GoNL data.