mapovali jsme data na UCSC human reference genome build 37 pomocí BWA 0.5.9-r16. Nejprve jsme mapovali každý pár čtení samostatně pomocí bwa aln. Poté jsme použili bwa sampe k mapování spárovaných čtení do souboru BAM9. Soubor BAM byl poté seřazen podle genomické polohy a indexován pomocí PicardTools-1.32 SortSam. Abychom zabránili tomu, aby artefakty PCR ovlivňovaly následnou analýzu našich dat, Použili jsme Picard k označení duplicitních čtení, které byly v následné analýze ignorovány. Použili jsme GATK IndelRealigner na našich datech kolem známých indels (od 1kg Pilot). IndelRealigner vytvoří všechny možné zarovnání čtení pomocí zdroje a vypočítá pravděpodobnost dat obsahujících indel na základě čtení pileup. Kdykoli maximální pravděpodobnost obsahuje indel, čtení jsou odpovídajícím způsobem upravena. Každá základna je spojena s phred-scaled skóre základní kvality. Kalibrace skóre Phred je zásadní, protože se používají v některých modelech následné analýzy. Použili jsme GATK k rekalibraci základních vlastností s ohledem na (i) základní cyklus, (ii) původní skóre kvality a (iii) dinukleotidový kontext. Abychom minimalizovali problémy vyplývající z mapování problémů kolem indels, rozhodli jsme se podstoupit druhé kolo přeskupení indel pomocí GATK IndelRealigner podle rodiny spíše než podle jednotlivce. Pro toto druhé kolo jsme zvažovali dva zdroje možných indelů: 1kg Phase 1 indels a indels zarovnané BWA v datech GoNL.