vi kartla dataene TIL ucsc human reference genome build 37 ved HJELP AV BWA 0.5.9-r16. Vi kartla først hvert lesepar separat ved hjelp av bwa aln. Da brukte vi bwa sampe å kartlegge paret leser sammen TIL EN BAM9 fil. BAM filen ble deretter sortert etter genomisk posisjon og indeksert Ved Hjelp PicardTools-1.32 SortSam. FOR å hindre PCR gjenstander fra å påvirke nedstrøms analyse av våre data, vi brukte Picard å markere duplikat leser, som ble ignorert i nedstrøms analyse. VI brukte GATK IndelRealigner på våre data rundt kjente indels (fra 1kg Pilot). Den IndelRealigner skaper alle mulige lese justeringer ved hjelp av kilden og beregner sannsynligheten for data som inneholder indel basert på lese pileup. Når den maksimale sannsynligheten inneholder en indel, realigned leser tilsvarende. Hver base er forbundet med en phred-skalert base kvalitetspoeng. Kalibrering Av Phred score er avgjørende som de brukes i noen av nedstrøms analysemodeller. VI brukte GATK til å rekalibrere basekvaliteten med hensyn til (i) basesyklusen, (ii) original kvalitetspoeng og (iii) dinukleotidkontekst. For å minimere problemer som stammer fra kartlegging problemer rundt indels, vi bestemte oss for å gjennomgå en andre runde av indel omstilling ved HJELP AV GATK IndelRealigner av familien i stedet for av enkelte. For denne andre runden vurderte vi to kilder til mulige indels: 1kg Fase 1 indels og indels justert AV BWA i GoNL-dataene.