Translated abstract: |
Abstract | Language |
---|
Die Identifizierung von Menschen durch DNA spielt seit Jahrzehnten eine wichtige Rolle in der Forensik und im Strafjustizsystem. Es bezieht sich auf die Zuordnung genetischer Daten zu einem bestimmten Menschen und hat polizeiliche Ermittlungen erleichtert, etwa bei der Identifizierung von mutmaßlichen Tätern anhand von biologischen Spuren an Tatorten, Vermissten oder Opfern von Massenkatastrophen [1]. Derzeit wurden zwei Hauptmethoden entwickelt: die Genotypisierung von kurzen Tandemwiederholungen (STR-Profiling) und die forensische DNA-Phänotypisierung (FDP). Obwohl diese beiden Methoden darauf abzielen, eine Person anhand ihres genetischen Materials zu identifizieren, sind ihre Herangehensweise und die daraus resultierenden Konsequenzen völlig unterschiedlich. Das STR-Profiling vergleicht Allel-Wiederholungen an bestimmten Loci in der DNA und zielt auf eine Übereinstimmung mit bereits den Polizeibehörden bekannten DNA-Profilen ab, während die FDP, die im Mittelpunkt der vorgelegten Studie steht, auf die Vorhersage von Aussehensmerkmalen eines Individuums abzielt [2, 3]. Im Gegensatz zum STR-Profiling können Informationen, die sich aus FDP ergeben, nicht als alleinige Beweismittel vor Gericht verwendet werden [4].
Die Fähigkeit, EVCs aus DNA vorherzusagen, kann als „biologische Zeugin“ genutzt werden, die den Ermittlungsbehörden nur Hinweise gibt und anschließend eine mögliche große Anzahl potenzieller Verdächtiger eingrenzen kann. Der Einsatz von FDP läutet eine neue Ära der „DNA-Intelligenz“ ein und ist insbesondere dann vielversprechend, wenn Personen mit der herkömmlichen Methode des STR-Profiling nicht identifiziert werden können und auch in Fällen, in denen keine zusätzlichen Kenntnisse über den Probenspender vorliegen. Bisher lassen sich in der FDP Merkmale wie Augen-, Haar- und Hautfarbe zuverlässig mit hoher Vorhersagegenauigkeit vorhersagen und prädiktive Modelle wurden bereits forensisch validiert [5-7]. In Bezug auf andere Merkmale des Aussehens hat der derzeitige Mangel an Wissen über die genetischen Marker, die für die phänotypische Variation verantwortlich sind, und die geringere Vorhersagbarkeit, insbesondere von Zwischenkategorien, verhindert, dass FDP routinemäßig in der Forensik eingesetzt wird.
Die Mehrzahl der für die Vorhersage von Erscheinungsmerkmalen entwickelten Vorhersagemodelle basierte auf der multinomialen logistischen Regression (MLR), während nur wenige andere Methoden wie Entscheidungsbäume und neuronale Netze verwendet wurden. Ansätze des maschinellen Lernens (ML) haben sich zu einem weit verbreiteten Ansatz für Klassifikationsprobleme in mehreren Bereichen entwickelt und sind für ihr Potenzial zur Verbesserung der Modellgüte und ihre Fähigkeit zum Umgang mit verschiedenen und komplexen Datentypen bekannt [8]. Eine systematische und vergleichende Analyse verschiedener ML-Ansätze, die möglicherweise Methoden aufzeigen könnte, die die Standard-MLR übertreffen, wurde jedoch im Rahmen der Vorhersage von EVCs bisher nicht durchgeführt. Darüber hinaus wurde die Einbeziehung von A-priori-Wahrscheinlichkeiten (Priors) in die EVC-Vorhersagemodelle, die das Potenzial haben, die bereits bestehenden Ansätze zu verbessern, im Kontext der Forensik noch nicht untersucht. Diese Priors spiegeln die Prävalenzwerte der Merkmalskategorien in biogeografischen Abstammungsgruppen wider, und ihre Verwendung könnte es uns ermöglichen, Bayes-Statistiken zu nutzen, um leistungsfähigere Vorhersagemodelle zu erstellen. In unserem Fall könnte die Einbeziehung solcher Priors in das Modell die zusätzlichen Informationen aller noch unbekannten kausalen genetischen Faktoren widerspiegeln und als deren Stellvertreter im Vorhersagemodell fungieren. Daher wurden diese beiden Ansätze während meines gesamten Promotionsprojekts verfolgt, um die bereits bestehenden Ansätze der FDP, die das Hauptziel meiner Studie war, zu verbessern.
In der ersten Studie wollte ich einen umfassenden Datensatz aus zuvor veröffentlichten Quellen zur räumlichen Verteilung verschiedener Erscheinungsmerkmale sammeln. Ich habe eine Literaturrecherche durchgeführt, um diese Informationen zusammenzustellen, die später als Priors in die Vorhersagemodelle der EVCs einfließen könnten. Aufgrund des Mangels an verfügbaren und zuverlässigen Quellen enthielt unser resultierender Datensatz nur Augen- und Haarfarbe für die meisten europäischen Länder. Genauer gesagt, habe ich Daten zur Augenfarbe aus 16 europäischen und zentralasiatischen Ländern gesammelt, während ich zur Haarfarbe Daten aus sieben europäischen Ländern sammeln konnte. Für Länder außerhalb Europas, in denen die Streuung gering ist, konnten keine vertrauenswürdigen und bevölkerungsrepräsentativen Daten zusammengetragen werden. Danach berechnete ich die Assoziation dieser beiden Merkmale und erhielt eine moderate Assoziation zwischen ihnen. Interpolationstechniken wurden angewendet, um Prävalenzwerte von Merkmalen zumindest in Nachbarländern abzuleiten. Resultierende Prävalenzen und interpolierte Werte wurden in räumlichen Karten dargestellt.
Gegenstand der zweiten Studie war es, die Merkmalsprävalenzwerte als Priors in das Vorhersagemodell einzubeziehen. Aufgrund des Mangels an zuverlässigen Daten, die in der ersten Studie beobachtet wurden, war die Einbeziehung von realen Prävalenzen, die uns einen Einblick in ihre Auswirkungen in die EVC-Vorhersage geben würden, jedoch mit dem derzeitigen Kenntnisstand und den verfügbaren Daten nicht machbar. Daher habe ich den Einfluss von Priors über einem Raster bewertet, das alle möglichen Werte enthielt, die Priors annehmen können, für eine Reihe von Erscheinungsmerkmalen, einschließlich Augen-, Haar- und Hautfarbe sowie Haarstruktur und Sommersprossen, untersucht. Auf diese Weise zielte ich darauf ab, potenzielle Nachteile zu bewerten, die durch eine Fehlspezifikation von Priors verursacht werden könnten. Die Ergebnisse wurden mit den entsprechenden vorhandenen, zuvor etablierten Vorhersagemodellen verglichen und bewertet. Die Wirkung von Priors wurde mit Standardmaßen für Klassifikatoren bewertet, einschließlich der Fläche unter der Kurve (AUC) und der Gesamtgenauigkeit. Ich habe herausgefunden, dass es unter allen möglichen Prior-Werten einen gewissen Anteil gibt, der Potenzial zur Verbesserung der Vorhersagegenauigkeit hat. Eine mögliche Fehlspezifikation von Priors kann jedoch die Gesamtgenauigkeit erheblich verringern. Darauf aufbauend betone ich die Bedeutung genauer Prior-Werte in der Vorhersagemodellierung, um die tatsächlichen Auswirkungen zu identifizieren. Als Konsequenz aus dem oben Gesagten ist die Verwendung von Prior-basierten Modellen in der Forensik derzeit nicht möglich und weitere Studien zu diesem Thema sind notwendig, um das aktuelle Wissen über die räumliche Prävalenz von EVCs zu erweitern.
Schließlich lag der Schwerpunkt der dritten Studie auf der Untersuchung und dem Vergleich der Leistungsfähigkeit von Methoden jenseits der MLR. MLR gilt als Standardmethode zur Vorhersage von EVCs, da die Mehrheit der entwickelten Vorhersagemodelle auf dieser Methode basiert. Da MLR-Modelle insbesondere bei Merkmalen wie Hautfarbe oder Haarstruktur noch Verbesserungspotenzial haben, habe ich mir zum Ziel gesetzt, verschiedene ML-Methoden anzuwenden, um herauszufinden, ob es einen potentiellen Klassifikator gibt, der die konventionelle Methode der MLR übertrifft . Daher habe ich einen systematischen Vergleich zwischen MLR und drei alternativen ML-Klassifikatoren durchgeführt, nämlich Support Vector Machines (SVM), Random Forests (RF) und künstlichen neuronalen Netze (ANN). Die Merkmale, auf die ich mich hier konzentrierte, waren Augen-, Haar- und Hautfarbe. Alle Modelle basierten auf den genetischen Markern, die zuvor in IrisPlex, HIrisPlex und HIrisPlex-S etabliert wurden [5-7]. Insgesamt habe ich beobachtet, dass alle vier Klassifikatoren fast gleich gut abschneiden, insbesondere bei der Augenfarbe. Es wurden nur unwesentliche Unterschiede zwischen den verschiedenen Merkmalen und zwischen den Merkmalskategorien festgestellt. Vor diesem Hintergrund schnitt keine der hier angewandten ML-Methoden besser ab als die MLR, zumindest für die drei Merkmale Augen-, Haar- und Hautfarbe. Letztendlich wird aufgrund der einfacheren Interpretierbarkeit der MLR zumindest für den Moment und für die derzeit bekannten Markersätze vorgeschlagen, dass die Verwendung der MLR die am besten geeignete Methode zur Vorhersage von Aussehensmerkmalen aus DNA ist.
Während meines Promotionsprojekts stellte sich heraus, dass das verfügbare Wissen über die räumlichen Prävalenzwerte von EVCs nicht nur bei bestimmten Erscheinungsmerkmalen, sondern auch bei kontinentalen Gruppen sehr eingeschränkt war. Insbesondere konzentrierten sich die meisten verfügbaren und zuverlässigen Daten auf die europäische Bevölkerung, und die verfügbaren Informationen betrafen hauptsächlich die Augen- und Haarfarbe. Für andere Merkmale wie Hautfarbe, Haarstruktur und Sommersprossen waren die Daten entweder extrem spärlich oder nicht vorhanden. Dies war während des gesamten Projekts ein erhebliches Hindernis, da es mich daran hinderte, die tatsächlichen Auswirkungen der genauen Merkmalsprävalenzwerte wie zuvor bei der EVC-Vorhersage anzuwenden und zu testen. Der Mangel an Daten bot jedoch die Möglichkeit, eingehende theoretische Untersuchungen durchzuführen, insbesondere den Einfluss von Priors innerhalb eines Rasters, das alle seine möglichen Werte einschloss, zu testen. Ich fand heraus, dass es einen Anteil von Prior-Werten gibt, die Potenzial zur Verbesserung der EVC-Vorhersage zeigten. Es ist jedoch Vorsicht geboten bei falschen Angaben zu den Priors, die dann die Leistung der Modelle erheblich verschlechtern können. Darüber hinaus zeigte die Anwendung verschiedener ML-Ansätze keine signifikante Verbesserung der Vorhersageleistung gegenüber der Standard-MLR. Dies könnte in der Natur der Merkmale begründet sein, da einige von ihnen multifaktoriell sind und von verschiedenen externen unabhängigen Faktoren beeinflusst werden, oder am möglicherweise begrenzten Wissensstand der derzeit bekannten prädiktiven Marker. Aufgrund des bisher verfügbaren Wissen wird in dieser Studie betont, dass vorerst auf die Einbeziehung von Priors in die EVC-Vorhersagemodelle verzichtet werden sollte, während die MLR unter den verschiedenen untersuchten Klassifikatoren als die am besten geeignete Methode für die EVC-Vorhersage angesehen aufgrund ihrer einfacheren Interpretierbarkeit. Darüber hinaus hebt die vorgestellte Studie die Bedeutung von Referenzdaten zu äußerlich sichtbaren Merkmalen und der Identifizierung weiterer genetischer Marker hervor, die zu bestimmten Merkmalen beitragen, und ich hoffe, dass die vorliegende Arbeit die Entstehung dieser bestimmten Arten von Datensammlungen motiviert, die die aktuellen EVC-Vorhersagemodelle möglicherweise verbessern könnten. | German |
|