Skip to content

Machine Learning für forensische Datenanalyse

Home  /  Referenzen  /  Machine Learning für forensische Datenanalyse

iS2-Consulting-Machine-Learning-1140x560

Mission

Die Einführung von Machine Learning in die forensische DNA-Analytik ermöglicht eine erweiterte Analyse der forensisch relevanten biologischen Daten. Die forensische DNA-Analytik basiert auf Next Generation-Sequenzierungsprotokolle. Das Ziel hierbei ist es, die Herkunft forensisch relevanter Körperflüssigkeiten aus Einzel- und Mischproben auf der Grundlage von Expressionsdaten aus einem gezielten RNA-Sequenzierungsprotokoll mittels Next Generation Sequencing für hochspezifische Körperflüssigkeits-Biomarker vorherzusagen.

Lösung

1. Entwicklung einer end-to-end Pipeline für die Genexpressionsanalyse von gezielten RNA-Sequenzierungsdaten

  • Bioinformatik-Tools: STAR Genom-Mapping, bamtools, samtools, Quantifizierung der RNA-Seq Daten mittels StringTie.
  • Statistische Bioanalyze basierend auf FPKM, TPM und Illumina MiSeq TargetHits
  • Workflow Design und Integration mittels Python/Shell-Bash/Snakemake

2. Entwicklung eines probabilistischen Vorhersagemodell für forensische Körperflüssigkeiten

  • Machine Learning Ansatz: multi-class Random Forest Klassifikationsmodell
  • Performance: durchschnittliche 10-fache Cross-Validierungsgenauigkeit von 88,8%

3. Analyse der Interpretierbarkeit des Modells und der individuellen Vorhersagen hinsichtlich der Relevanz von Biomarkern und Entscheidungspfadrekonstruktionen

  • Entscheidungspfadrekonstruktionen mittels: treeinterpreter, Graphviz
  • Ein hohes Maß an Interpretierbarkeit wird erreicht, indem eine Vorhersage auf die einzelnen Biomarker zurückgeführt wird, die zu dieser bestimmten Vorhersage beigetragen haben.

Kunde

Bayerisches Landeskriminalamt (BLKA)

Zeitraum

seit September 2018

Projektrollen

Konzeption und Entwicklung

Mit nur 2 Klicks

zur unverbindlichen Erstberatung!