vi kortlagde dataene til UCSC human reference genome build 37 ved hjælp af 0.5.9-r16. Vi kortlagde først hvert læsepar separat ved hjælp af ALN. Derefter brugte vi sampe til at kortlægge de parrede læser sammen til en BAM9-fil. BAM-filen blev derefter sorteret efter genomisk position og indekseret ved hjælp af PicardTools-1.32 SortSam. For at forhindre PCR-artefakter i at påvirke nedstrømsanalysen af vores data, vi brugte Picard til at markere duplikatlæsningerne, som blev ignoreret i nedstrømsanalyse. Vi brugte GATK IndelRealigner på vores data omkring kendte indels (fra 1 kg Pilot). Den IndelRealigner skaber alle mulige læse justeringer ved hjælp af kilden og beregner sandsynligheden for de data, der indeholder indel baseret på den læste pileup. Når den maksimale sandsynlighed indeholder en indel, aflæsningerne justeres i overensstemmelse hermed. Hver base er forbundet med en phred-skaleret basiskvalitetsscore. Kalibrering af Phred-scoringer er afgørende, da de bruges i nogle af nedstrøms analysemodellerne. Vi brugte GATK til at kalibrere basiskvaliteterne med hensyn til (i) basiscyklussen, (ii) original kvalitetsresultat og (iii) dinucleotidkontekst. For at minimere problemer, der stammer fra kortlægningsproblemer omkring indels, vi besluttede at gennemgå en anden runde af indel-justering ved hjælp af gatk IndelRealigner af familie snarere end af individ. Til denne anden runde, vi overvejede to kilder til mulige indels: 1 kg fase 1 indels og indels justeret af VVA i GoNL-dataene.