De Jong (8) WGKS

WGKS is whole genome k-mer signature. Cserhati heeft deze methode gebruikt en Gerdien de Jong legt in haar zesde bijdrage uit wat de methode inhoudt en welke gevoeligheden daarbij horen.

In haar zevende bijdrage legt De Jong uit dat WGKS niet geschikt is voor het opstellen van een fylogenetische boom. De Jong: Cserhati gebruikt de WGKS gegevens om met de UPGMA methode een fylogenetische boom te maken. UPGMA is de simpelste en oudste methode om een fylogenetische boom uit data te construeren. Het grote nadeel van UPGMA is dat deze methode veronderstelt dat de veranderingssnelheid gelijk is in de tijd en over alle lijnen, dus over de gehele fylogenetische boom. Dat is lang niet altijd het geval, en UPGMA wordt nog maar zelden gebruikt.

Vervolgens laat De Jong zien waar dit toe leidt en ik citeer het deel over de Musteloidea: De familie marterachtigen Musteloidea is ook verrommeld:

Figuur 3. Detail van figuur 1, de superfamilie Musteloidea

Hier staat dat de otter Lutra lutra meer verwant is met de veelvraat en de fret dan met de drie andere otters. De fret en de hermelijn, beide uit het geslacht Mustela, worden uit elkaar gegooid in de eerste splitsing binnen de familie Mustelidae. De otters en Mustela laten ook aan iemand zonder biologie achtergrond zien dat deze fylogenetische boom geen goede weergave van de verwantschap tussen de soorten kan laten zien. In totaal blijkt dat deze fylogenetische boom op Whole-Genome K-mer Signatures tot bekende resultaten komt bij de grote patronen van minder verwante groepen. Binnen een familie is WGKS niet te gebruiken om verwantschap na te gaan. Waar de overgang tussen ‘grof klopt’ en ‘fijn is puin’ ligt, is niet te zeggen. Als je de Fret en de Hermelijn als nauwe verwanten laat vallen, dan vaar je volkomen losgezongen van de intuïtie. De computer is dan de baas, in plaats van dat de interpreterende mens het laatste woord heeft. Omdat er een bak gegevens is gebruikt waarvan de inhoud feitelijk onbekend is, zijn er ook geen conclusies te trekken over wat Cserhati wel gevonden heeft. Sommige clusters lijken gezamenlijke overeenkomsten te hebben in geografie (Oude vs Nieuwe wereld) of bepaalde eigenschappen (vissers: Neovison en Lontra), maar omdat niet bekend is wat de octameren voorstellen (dit is anders dan als het bijvoorbeeld om functionele genen zou gaan), kan er geen zinnig woord over worden gezegd.

In de achtste bijdrage gaat De Jong in op de clustering die Cserhati op basis van WGKS doet: Cserhati legt niet veel nadruk op de fylogenetische boom op grond van zijn WGKS gegevens van 28 soorten, maar geeft ruim aandacht aan clustering. In zijn analyse maakt hij een correlatiematrix, de paarsgewijze correlaties van de octamer signatures van de soorten. Deze matrix geeft hij weer in een ‘heatmap’ waarin de grootte van de correlatie weergegeven wordt op een licht-donker schaal. Op grond van deze matrix gaat Cserhati clusters zoeken.

Wat De Jong in deze bijdrage uitgebreid uitlegt, komt overeen met mijn eerdere reactie en ik neem haar conclusie over: Al met al, “using clustering algorithms to detect monophyletic groups” laat geen inzicht in clustering of fylogenie of biologie zien. Uit het bestaan van een cluster kan niet tot monofylie besloten worden. Uit het bestaan van twee clusters kan niet besloten worden dat de soorten in de verschillende clusters niet verwant zijn.

De negende bijdrage van De Jong vind ik erg verhelderend. Het is een kwestie van schuiven en presentatie. Is wat De Jong hier zegt niet precies wat in een foutendiscussie van een wetenschappelijk artikel hoort te staan?

In haar tiende bijdrage gaat De Jong in op de vraag of ook wasberen in de WGKS betrokken hadden moeten worden. Dit leidt niet tot heel andere uitkomsten, zodat ik deze bijdrage buiten beschouwing laat.

De laatste acht bijdragen van De Jong bewaar ik voor later.

<< De Jong (7) morfologisch probleem | >>

2 reacties

  1. […] << terug naar af | De Jong (8) WGKS >> […]

  2. […] << De Jong (8) WGKS) | >> […]

Plaats een reactie