mapeamos os dados para a UCSC human reference genome build 37 usando bwa 0.5.9-r16. Mapeamos cada par de leitura separadamente usando BWA aln. Depois usámos o BWA sampe para mapear os pares de leituras juntos para um ficheiro BAM9. O arquivo BAM foi então classificado por posição genômica e indexado usando PicardTools-1,32 SortSam. Para evitar que Artefatos de PCR influenciassem a análise a jusante de nossos dados, usamos Picard para marcar as leituras duplicadas, que foram ignoradas na análise a jusante. Nós usamos GATK IndelRealigner em nossos dados em torno de indels conhecidos (de 1kg Pilot). O IndelRealigner cria todos os alinhamentos de leitura possíveis usando a fonte e calcula a probabilidade dos dados que contêm o indel com base na pilha de leitura. Sempre que a máxima probabilidade contém um indel, as leituras são realinhadas em conformidade. Cada base é associada a uma pontuação de qualidade de base phred-scaled. A calibração das Pontuações de Phred é crucial na medida em que são utilizadas em alguns dos modelos de análise a jusante. Usámos o GATK para recalibrar as qualidades de base em relação a i) o ciclo de base, ii) a pontuação de qualidade original e III) o contexto dinucleótido. Para minimizar as questões decorrentes de problemas de mapeamento em torno de indels, decidimos passar por uma segunda rodada de realinhamento indel usando o Gatk IndelRealigner por família e não por indivíduo. Para esta segunda rodada, consideramos duas fontes de possíveis indels: 1kg Fase 1 indels e indels alinhados pela BWA nos dados GoNL.