zmapowaliśmy dane do kompilacji ludzkiego genomu referencyjnego UCSC 37 przy użyciu BWA 0.5.9-R16. Najpierw mapowaliśmy każdą parę odczytu osobno za pomocą bwa aln. Następnie użyliśmy BWA sampe do mapowania sparowanych odczytów razem do pliku BAM9. Plik BAM został następnie posortowany według pozycji genomowej i indeksowany za pomocą PicardTools-1.32 SortSam. Aby zapobiec wpływowi artefaktów PCR na dalszą analizę naszych danych, użyliśmy Picard do oznaczania zduplikowanych odczytów, które zostały zignorowane w dalszej analizie. Użyliśmy Gatk IndelRealigner na naszych danych wokół znanych indeli (od 1kg pilota). IndelRealigner tworzy wszystkie możliwe wyrównania odczytu za pomocą źródła i oblicza prawdopodobieństwo danych zawierających indel na podstawie odczytu pileup. Ilekroć maksymalne prawdopodobieństwo zawiera indel, odczyty są odpowiednio wyrównywane. Każda baza jest powiązana z oceną jakości bazy w skali phred. Kalibracja wyników Phred ma kluczowe znaczenie, ponieważ są one stosowane w niektórych modelach analizy niższego szczebla. Użyliśmy GATK do rekalibracji właściwości bazowych w odniesieniu do (i) cyklu bazowego, (ii) oryginalnego wyniku jakości i (iii) kontekstu dinukleotydowego. Aby zminimalizować problemy wynikające z mapowania wokół INDEL, zdecydowaliśmy się przejść drugą rundę realignment indel przy użyciu Gatk IndelRealigner przez rodzinę, a nie przez jednostkę. W tej drugiej rundzie rozważaliśmy dwa źródła możliwych indeli: Indele fazy 1kg i indele wyrównane przez BWA w danych GoNL.