Mapeamos los datos a la compilación de genoma humano de referencia de la UCSC 37 utilizando BWA 0.5.9-r16. Primero mapeamos cada par de lecturas por separado usando bwa aln. Luego usamos bwa sampe para mapear las lecturas emparejadas en un archivo BAM9. El archivo BAM se clasificó por posición genómica y se indexó utilizando PicardTools-1.32 SortSam. Para evitar que los artefactos de PCR influyeran en el análisis descendente de nuestros datos, utilizamos Picard para marcar las lecturas duplicadas, que se ignoraron en el análisis descendente. Utilizamos GATK IndelRealigner en nuestros datos sobre indels conocidos (de Piloto de 1 KG). El IndelRealigner crea todas las alineaciones de lectura posibles utilizando la fuente y calcula la probabilidad de los datos que contienen el indel en función de la acumulación de lectura. Siempre que la máxima verosimilitud contenga un indel, las lecturas se realinean en consecuencia. Cada base está asociada con una puntuación de calidad de base a escala phred. La calibración de las puntuaciones Phred es crucial, ya que se utilizan en algunos de los modelos de análisis posteriores. Utilizamos GATK para recalibrar las cualidades de base con respecto a (i) el ciclo de base, (ii) la puntuación de calidad original y (iii) el contexto de dinucleótidos. Para minimizar los problemas derivados de los problemas de mapeo alrededor de indels, decidimos someternos a una segunda ronda de realineación de indel utilizando el IndelRealigner de GATK por familia en lugar de por individuo. Para esta segunda ronda, se consideraron dos fuentes de indels posibles: indels de fase 1 de 1 KG e indels alineados por BWA en los datos de GoNL.