Katsara, Maria-Alexandra (2021). Evaluation of a prior-incorporated statistical model and established classifiers for externally visible characteristics prediction. PhD thesis, Universität zu Köln.

[img]
Preview
PDF
Final_thesis_Katsara_Maria-Alexandra.pdf - Accepted Version

Download (14MB) | Preview

Abstract

Human identification through DNA has played an important role in forensic science and in the criminal justice system for decades. It is referring to the association of genetic data with a particular human being and has facilitated police investigations in cases such as the identification of suspected perpetrators from biological traces found at crime scenes, missing persons, or victims of mass disasters [1]. Currently there are two main methods developed: the genotyping through short tandem repeats (STR profiling) and the forensic DNA phenotyping (FDP). Despite the fact that these two methods are aiming in identifying a person through its genetic material, their approach and consequences that come up are completely different. STR profiling compares allele repeats at specific loci in DNA and aims at a match with already known to the police authorities DNA profiles, while FDP, which is the focus on the current study, aims in the prediction of appearance traits of an individual [2, 3]. In contrast with STR profiling, information that arise out of FDP cannot be used as sole evidence in the court [4]. The ability of predicting EVCs from DNA can be used as ‘biological witnesses’ that can only provide leads for the investigative authorities and subsequently narrow down a possible large set of potential suspects. The use of FDP begins a new era of ‘DNA intelligence’ and holds great promise especially in cases where individuals cannot be identified with the conventional method of STR profiling and also in cases where there is no additional knowledge on the sample donor. So far in FDP, traits such as eye, hair and skin color can be predicted reliably with high prediction accuracy and predictive models have already been forensically validated [5-7]. Regarding other appearance traits, the current lack of knowledge on the genetic markers responsible for their phenotypic variation and the lower predictability, especially of intermediate categories, has prevented FDP from being routinely implemented in the field of forensic science. The majority of the predictive models developed for appearance trait prediction were based on multinomial logistic regression (MLR) while only few used other methods such as decision trees and neural networks. Machine learning (ML) approaches have become a widely used tool for classification problems in several fields and they are known for their potential to boost model performance and their ability to handle different and complex types of data [8]. However, within the context of predicting EVCs, a systematic and comparative analysis among different ML approaches that could possibly indicate methods that outperform the standard MLR, has not been conducted so far. In addition, incorporation of priors in the EVC prediction models that may have potential to improve the already existing approaches, has not been investigated in the context of forensics yet. These priors indicate the trait category prevalence values among biogeographic ancestry groups, and their use would allow us to leverage Bayesian statistics in order to build more powerful prediction models. In our case, incorporation of such priors in the model could reflect the additional information from all yet unknown causal genetic factors and act as proxies in the prediction model. Therefore, those two approaches were conducted throughout my PhD project in order to improve the already existing approaches of FDP which was the main aim of my study. In the first study, I aimed to collect a comprehensive data set from previously published sources on the spatial distribution of different appearance traits. I conducted a literature review in order to assemble this information, which later on could be incorporated as priors in the EVCs prediction models. Due to the lack of available and reliable sources, our resulting data set contained only eye and hair color for mostly European countries. More specifically, I collected data on eye color from 16 European and Central Asian countries, while for hair color I collected data from seven European countries. For countries outside of Europe, where the variation is low, it was not possible to assemble trustworthy and population-representative data. Afterwards, I calculated the association of those two traits and obtained a moderate association between them. Interpolation techniques were applied in order to infer trait prevalence values in at least neighboring countries. Resulting prevalences and interpolated values were presented in spatial maps. The subject of the second study was to incorporate the trait prevalence values as priors in the prediction model. However, due to the lack of reliable data that was observed in the first study, the incorporation of the actual priors that would give us the actual insight of their impact in the EVC prediction was not feasible with the current existing knowledge and the available data. Therefore, I assessed the impact of priors across a grid that contained all possible values that priors can take, for a set of appearance traits including eye, hair, skin color, hair structure, and freckles. In this way, I aimed to assess potential pitfalls caused by misspecification of priors. Results were compared and evaluated with the corresponding prior-free' previously established prediction models. The effect of priors was demonstrated in the standard performance measurements, including area under curve (AUC) and overall accuracy. I found out that from all possible prior values, there is a proportion that shows potential in improving the prediction accuracy. However, possible misspecification of priors can significantly diminish the overall accuracy. Based on that, I emphasize the importance of accurate prior values in the prediction modelling in order to identify the actual impact. As a consequence of the above, the use of prior informed models in forensics is currently infeasible and more studies on the topic are necessary in order to extend the current knowledge on spatial trait prevalence. Finally, the focus of the third study was exploring and comparing the performances of methodologies beyond MLR. MLR is considered the standard method for predicting EVCs, since the majority of the predictive models developed are based on that method. Due to the fact that there is still potential for improvement of MLR models, especially for traits such as skin color or hair structure, I aimed at applying different ML methods in order to identify whether there is a potential classifier that outperforms the conventional method of MLR. Therefore I conducted a systematic comparison between MLR and three alternative ML classifiers, namely support vector machines (SVM), random forests (RF) and artificial neural networks (ANN). The traits that I focused on here were eye, hair, and skin color. All models were based on the genetic markers that were previously established in IrisPlex, HIrisPlex and HIrisPlex-S [5-7]. Overall, I observed that all four classifiers performed almost equally well, especially for eye color. Only non-substantial differences were obtained across the different traits and across trait categories. Given this outcome, none of the ML methods applied here performed better than MLR, at least for the three traits of eye, hair, and skin color. Ultimately, due to the easier interpretability of the MLR, it is suggested at least for now and for the currently known marker sets, that the use of MLR is the most appropriate method for predicting appearance traits from DNA. Throughout my PhD project, it became apparent that the available knowledge on spatial trait prevalence values was quite restricted not only in certain appearance traits but also in continental groups. More specifically, most available and reliable data were focused on European populations and the traits that were available were mostly for eye and hair color. For other traits, such as skin color, hair structure, and freckles, the data were either extremely few or nonexistent. This was a significant obstacle throughout the project, since it prevented me from applying and testing the actual impact of the accurate trait prevalence values as priors in EVC prediction. However, the lack of data presented an opportunity to perform in-depth theoretical research, in particular testing the impact of priors within a spatial grid that included its possible values. I found out that there is a proportion of priors that showed potential to improve EVC prediction. However, caution is advised regarding misspecification of priors that can significantly deteriorate the models' performance. Furthermore, the application of different ML approaches did not show any significant improvement on the prediction performance against the standard MLR. This could be due to the nature of the traits, since some of them are multifactorial and affected by various external independent factors or due to possible limitations of the currently known predictive markers. With the available knowledge so far, it is emphasized throughout this study that for the time being, priors are refrained from being incorporated in the EVC prediction models while from the different classifiers applied, MLR is considered as the most appropriate method for EVC prediction due to its easier interpretability. In addition, the presented study highlights the importance of reference data on externally visible traits and the identification of more genetic markers that contribute to certain traits and I hope that the present work will motivate the emergence of these certain types of data collections that potentially may improve the current EVC prediction models.

Item Type: Thesis (PhD thesis)
Translated title:
TitleLanguage
Evaluation of a prior-incorporated statistical model and established classifiers for externally visible characteristics predictionEnglish
Translated abstract:
AbstractLanguage
Die Identifizierung von Menschen durch DNA spielt seit Jahrzehnten eine wichtige Rolle in der Forensik und im Strafjustizsystem. Es bezieht sich auf die Zuordnung genetischer Daten zu einem bestimmten Menschen und hat polizeiliche Ermittlungen erleichtert, etwa bei der Identifizierung von mutmaßlichen Tätern anhand von biologischen Spuren an Tatorten, Vermissten oder Opfern von Massenkatastrophen [1]. Derzeit wurden zwei Hauptmethoden entwickelt: die Genotypisierung von kurzen Tandemwiederholungen (STR-Profiling) und die forensische DNA-Phänotypisierung (FDP). Obwohl diese beiden Methoden darauf abzielen, eine Person anhand ihres genetischen Materials zu identifizieren, sind ihre Herangehensweise und die daraus resultierenden Konsequenzen völlig unterschiedlich. Das STR-Profiling vergleicht Allel-Wiederholungen an bestimmten Loci in der DNA und zielt auf eine Übereinstimmung mit bereits den Polizeibehörden bekannten DNA-Profilen ab, während die FDP, die im Mittelpunkt der vorgelegten Studie steht, auf die Vorhersage von Aussehensmerkmalen eines Individuums abzielt [2, 3]. Im Gegensatz zum STR-Profiling können Informationen, die sich aus FDP ergeben, nicht als alleinige Beweismittel vor Gericht verwendet werden [4]. Die Fähigkeit, EVCs aus DNA vorherzusagen, kann als „biologische Zeugin“ genutzt werden, die den Ermittlungsbehörden nur Hinweise gibt und anschließend eine mögliche große Anzahl potenzieller Verdächtiger eingrenzen kann. Der Einsatz von FDP läutet eine neue Ära der „DNA-Intelligenz“ ein und ist insbesondere dann vielversprechend, wenn Personen mit der herkömmlichen Methode des STR-Profiling nicht identifiziert werden können und auch in Fällen, in denen keine zusätzlichen Kenntnisse über den Probenspender vorliegen. Bisher lassen sich in der FDP Merkmale wie Augen-, Haar- und Hautfarbe zuverlässig mit hoher Vorhersagegenauigkeit vorhersagen und prädiktive Modelle wurden bereits forensisch validiert [5-7]. In Bezug auf andere Merkmale des Aussehens hat der derzeitige Mangel an Wissen über die genetischen Marker, die für die phänotypische Variation verantwortlich sind, und die geringere Vorhersagbarkeit, insbesondere von Zwischenkategorien, verhindert, dass FDP routinemäßig in der Forensik eingesetzt wird. Die Mehrzahl der für die Vorhersage von Erscheinungsmerkmalen entwickelten Vorhersagemodelle basierte auf der multinomialen logistischen Regression (MLR), während nur wenige andere Methoden wie Entscheidungsbäume und neuronale Netze verwendet wurden. Ansätze des maschinellen Lernens (ML) haben sich zu einem weit verbreiteten Ansatz für Klassifikationsprobleme in mehreren Bereichen entwickelt und sind für ihr Potenzial zur Verbesserung der Modellgüte und ihre Fähigkeit zum Umgang mit verschiedenen und komplexen Datentypen bekannt [8]. Eine systematische und vergleichende Analyse verschiedener ML-Ansätze, die möglicherweise Methoden aufzeigen könnte, die die Standard-MLR übertreffen, wurde jedoch im Rahmen der Vorhersage von EVCs bisher nicht durchgeführt. Darüber hinaus wurde die Einbeziehung von A-priori-Wahrscheinlichkeiten (Priors) in die EVC-Vorhersagemodelle, die das Potenzial haben, die bereits bestehenden Ansätze zu verbessern, im Kontext der Forensik noch nicht untersucht. Diese Priors spiegeln die Prävalenzwerte der Merkmalskategorien in biogeografischen Abstammungsgruppen wider, und ihre Verwendung könnte es uns ermöglichen, Bayes-Statistiken zu nutzen, um leistungsfähigere Vorhersagemodelle zu erstellen. In unserem Fall könnte die Einbeziehung solcher Priors in das Modell die zusätzlichen Informationen aller noch unbekannten kausalen genetischen Faktoren widerspiegeln und als deren Stellvertreter im Vorhersagemodell fungieren. Daher wurden diese beiden Ansätze während meines gesamten Promotionsprojekts verfolgt, um die bereits bestehenden Ansätze der FDP, die das Hauptziel meiner Studie war, zu verbessern. In der ersten Studie wollte ich einen umfassenden Datensatz aus zuvor veröffentlichten Quellen zur räumlichen Verteilung verschiedener Erscheinungsmerkmale sammeln. Ich habe eine Literaturrecherche durchgeführt, um diese Informationen zusammenzustellen, die später als Priors in die Vorhersagemodelle der EVCs einfließen könnten. Aufgrund des Mangels an verfügbaren und zuverlässigen Quellen enthielt unser resultierender Datensatz nur Augen- und Haarfarbe für die meisten europäischen Länder. Genauer gesagt, habe ich Daten zur Augenfarbe aus 16 europäischen und zentralasiatischen Ländern gesammelt, während ich zur Haarfarbe Daten aus sieben europäischen Ländern sammeln konnte. Für Länder außerhalb Europas, in denen die Streuung gering ist, konnten keine vertrauenswürdigen und bevölkerungsrepräsentativen Daten zusammengetragen werden. Danach berechnete ich die Assoziation dieser beiden Merkmale und erhielt eine moderate Assoziation zwischen ihnen. Interpolationstechniken wurden angewendet, um Prävalenzwerte von Merkmalen zumindest in Nachbarländern abzuleiten. Resultierende Prävalenzen und interpolierte Werte wurden in räumlichen Karten dargestellt. Gegenstand der zweiten Studie war es, die Merkmalsprävalenzwerte als Priors in das Vorhersagemodell einzubeziehen. Aufgrund des Mangels an zuverlässigen Daten, die in der ersten Studie beobachtet wurden, war die Einbeziehung von realen Prävalenzen, die uns einen Einblick in ihre Auswirkungen in die EVC-Vorhersage geben würden, jedoch mit dem derzeitigen Kenntnisstand und den verfügbaren Daten nicht machbar. Daher habe ich den Einfluss von Priors über einem Raster bewertet, das alle möglichen Werte enthielt, die Priors annehmen können, für eine Reihe von Erscheinungsmerkmalen, einschließlich Augen-, Haar- und Hautfarbe sowie Haarstruktur und Sommersprossen, untersucht. Auf diese Weise zielte ich darauf ab, potenzielle Nachteile zu bewerten, die durch eine Fehlspezifikation von Priors verursacht werden könnten. Die Ergebnisse wurden mit den entsprechenden vorhandenen, zuvor etablierten Vorhersagemodellen verglichen und bewertet. Die Wirkung von Priors wurde mit Standardmaßen für Klassifikatoren bewertet, einschließlich der Fläche unter der Kurve (AUC) und der Gesamtgenauigkeit. Ich habe herausgefunden, dass es unter allen möglichen Prior-Werten einen gewissen Anteil gibt, der Potenzial zur Verbesserung der Vorhersagegenauigkeit hat. Eine mögliche Fehlspezifikation von Priors kann jedoch die Gesamtgenauigkeit erheblich verringern. Darauf aufbauend betone ich die Bedeutung genauer Prior-Werte in der Vorhersagemodellierung, um die tatsächlichen Auswirkungen zu identifizieren. Als Konsequenz aus dem oben Gesagten ist die Verwendung von Prior-basierten Modellen in der Forensik derzeit nicht möglich und weitere Studien zu diesem Thema sind notwendig, um das aktuelle Wissen über die räumliche Prävalenz von EVCs zu erweitern. Schließlich lag der Schwerpunkt der dritten Studie auf der Untersuchung und dem Vergleich der Leistungsfähigkeit von Methoden jenseits der MLR. MLR gilt als Standardmethode zur Vorhersage von EVCs, da die Mehrheit der entwickelten Vorhersagemodelle auf dieser Methode basiert. Da MLR-Modelle insbesondere bei Merkmalen wie Hautfarbe oder Haarstruktur noch Verbesserungspotenzial haben, habe ich mir zum Ziel gesetzt, verschiedene ML-Methoden anzuwenden, um herauszufinden, ob es einen potentiellen Klassifikator gibt, der die konventionelle Methode der MLR übertrifft . Daher habe ich einen systematischen Vergleich zwischen MLR und drei alternativen ML-Klassifikatoren durchgeführt, nämlich Support Vector Machines (SVM), Random Forests (RF) und künstlichen neuronalen Netze (ANN). Die Merkmale, auf die ich mich hier konzentrierte, waren Augen-, Haar- und Hautfarbe. Alle Modelle basierten auf den genetischen Markern, die zuvor in IrisPlex, HIrisPlex und HIrisPlex-S etabliert wurden [5-7]. Insgesamt habe ich beobachtet, dass alle vier Klassifikatoren fast gleich gut abschneiden, insbesondere bei der Augenfarbe. Es wurden nur unwesentliche Unterschiede zwischen den verschiedenen Merkmalen und zwischen den Merkmalskategorien festgestellt. Vor diesem Hintergrund schnitt keine der hier angewandten ML-Methoden besser ab als die MLR, zumindest für die drei Merkmale Augen-, Haar- und Hautfarbe. Letztendlich wird aufgrund der einfacheren Interpretierbarkeit der MLR zumindest für den Moment und für die derzeit bekannten Markersätze vorgeschlagen, dass die Verwendung der MLR die am besten geeignete Methode zur Vorhersage von Aussehensmerkmalen aus DNA ist. Während meines Promotionsprojekts stellte sich heraus, dass das verfügbare Wissen über die räumlichen Prävalenzwerte von EVCs nicht nur bei bestimmten Erscheinungsmerkmalen, sondern auch bei kontinentalen Gruppen sehr eingeschränkt war. Insbesondere konzentrierten sich die meisten verfügbaren und zuverlässigen Daten auf die europäische Bevölkerung, und die verfügbaren Informationen betrafen hauptsächlich die Augen- und Haarfarbe. Für andere Merkmale wie Hautfarbe, Haarstruktur und Sommersprossen waren die Daten entweder extrem spärlich oder nicht vorhanden. Dies war während des gesamten Projekts ein erhebliches Hindernis, da es mich daran hinderte, die tatsächlichen Auswirkungen der genauen Merkmalsprävalenzwerte wie zuvor bei der EVC-Vorhersage anzuwenden und zu testen. Der Mangel an Daten bot jedoch die Möglichkeit, eingehende theoretische Untersuchungen durchzuführen, insbesondere den Einfluss von Priors innerhalb eines Rasters, das alle seine möglichen Werte einschloss, zu testen. Ich fand heraus, dass es einen Anteil von Prior-Werten gibt, die Potenzial zur Verbesserung der EVC-Vorhersage zeigten. Es ist jedoch Vorsicht geboten bei falschen Angaben zu den Priors, die dann die Leistung der Modelle erheblich verschlechtern können. Darüber hinaus zeigte die Anwendung verschiedener ML-Ansätze keine signifikante Verbesserung der Vorhersageleistung gegenüber der Standard-MLR. Dies könnte in der Natur der Merkmale begründet sein, da einige von ihnen multifaktoriell sind und von verschiedenen externen unabhängigen Faktoren beeinflusst werden, oder am möglicherweise begrenzten Wissensstand der derzeit bekannten prädiktiven Marker. Aufgrund des bisher verfügbaren Wissen wird in dieser Studie betont, dass vorerst auf die Einbeziehung von Priors in die EVC-Vorhersagemodelle verzichtet werden sollte, während die MLR unter den verschiedenen untersuchten Klassifikatoren als die am besten geeignete Methode für die EVC-Vorhersage angesehen aufgrund ihrer einfacheren Interpretierbarkeit. Darüber hinaus hebt die vorgestellte Studie die Bedeutung von Referenzdaten zu äußerlich sichtbaren Merkmalen und der Identifizierung weiterer genetischer Marker hervor, die zu bestimmten Merkmalen beitragen, und ich hoffe, dass die vorliegende Arbeit die Entstehung dieser bestimmten Arten von Datensammlungen motiviert, die die aktuellen EVC-Vorhersagemodelle möglicherweise verbessern könnten.German
Creators:
CreatorsEmailORCIDORCID Put Code
Katsara, Maria-AlexandraUNSPECIFIEDUNSPECIFIEDUNSPECIFIED
Contributors:
ContributionNameEmail
CorrectorDrichel, DmitriyUNSPECIFIED
URN: urn:nbn:de:hbz:38-520736
Date: 30 April 2021
Language: English
Faculty: Faculty of Mathematics and Natural Sciences
Divisions: Cologne Center for Genomics > West German Genome Center (WGGC)
Subjects: Natural sciences and mathematics
Uncontrolled Keywords:
KeywordsLanguage
Forensic DNA Phenotyping (FDP) Externally Visible Characteristic (EVC) prediction Appearance traits prevalences Genetic prediction Impact of priors Machine learning ClassifiersEnglish
Date of oral exam: 30 April 2021
Referee:
NameAcademic Title
Nothnagel, MichaelProf. Dr.
de Meaux, JulietteProf. Dr.
Wiehe, ThomasProf. Dr.
Refereed: Yes
URI: http://kups.ub.uni-koeln.de/id/eprint/52073

Downloads

Downloads per month over past year

Export

Actions (login required)

View Item View Item