Abbiamo mappato i dati alla UCSC human reference genome build 37 utilizzando BWA 0.5.9-r16. In primo luogo abbiamo mappato ogni coppia di lettura separatamente utilizzando bwa aln. Quindi abbiamo usato bwa sampe per mappare le letture accoppiate insieme a un file BAM9. Il file BAM è stato quindi ordinato per posizione genomica e indicizzato utilizzando PicardTools-1.32 SortSam. Per evitare che gli artefatti della PCR influenzino l’analisi a valle dei nostri dati, abbiamo usato Picard per contrassegnare le letture duplicate, che sono state ignorate nell’analisi a valle. Abbiamo usato GATK IndelRealigner sui nostri dati intorno indels noti (da 1KG Pilota). IndelRealigner crea tutti i possibili allineamenti di lettura utilizzando l’origine e calcola la probabilità che i dati contengano l’indel in base al pileup di lettura. Ogni volta che la massima verosimiglianza contiene un indel, le letture vengono riallineate di conseguenza. Ogni base è associata a un punteggio di qualità di base in scala phred. La calibrazione dei punteggi Phred è fondamentale in quanto sono utilizzati in alcuni dei modelli di analisi a valle. Abbiamo usato GATK per ricalibrare le qualità di base rispetto a (i) il ciclo di base, (ii) il punteggio di qualità originale e (iii) il contesto dinucleotidico. Per ridurre al minimo i problemi derivanti da problemi di mappatura intorno indel, abbiamo deciso di sottoporsi a un secondo round di riallineamento indel utilizzando il GATK IndelRealigner per famiglia piuttosto che per individuo. Per questo secondo round, abbiamo considerato due fonti di possibili indel: 1KG Fase 1 indel e indel allineati da BWA nei dati GoNL.