vi mappade data till UCSC human reference genome build 37 Med BWA 0.5.9-r16. Vi kartlade först varje läspar separat med bwa aln. Sedan använde vi bwa sampe för att kartlägga de parade läsningarna tillsammans till en BAM9-fil. BAM-filen sorterades sedan efter genomisk position och indexerades med PicardTools-1.32 SortSam. För att förhindra att PCR-artefakter påverkar nedströmsanalysen av våra data använde vi Picard för att markera duplikatläsningarna, som ignorerades i nedströmsanalys. Vi använde GATK IndelRealigner på våra data kring kända indels (från 1KG Pilot). Den IndelRealigner skapar alla möjliga läsjusteringar med hjälp av källan och beräknar sannolikheten för data som innehåller indel baserat på läs pileup. När den maximala sannolikheten innehåller en indel justeras läsningarna i enlighet därmed. Varje bas är associerad med en phred-skalad baskvalitetspoäng. Kalibrering av Phred-poäng är avgörande eftersom de används i några av nedströmsanalysmodellerna. Vi använde GATK för att kalibrera om baskvaliteterna med avseende på (i) bascykeln, (ii) originalkvalitetspoäng och (iii) dinukleotidkontext. För att minimera problem som härrör från kartläggning problem runt indels, vi bestämde oss för att genomgå en andra omgång indel omjustering med hjälp av GATK IndelRealigner av familjen snarare än av enskilda. För den andra omgången övervägde vi två källor till möjliga indels: 1kg fas 1 indels och indels i linje med BWA i GoNL-data.