Method Article
Wir präsentieren eine Methodik, die auf multimodalen Sensoren basiert, um ein einfaches, komfortables und schnelles Fallerkennungs- und Menschlicheaktivitätserkennungssystem zu konfigurieren. Das Ziel ist es, ein System für eine genaue Fallerkennung zu bauen, das einfach implementiert und übernommen werden kann.
Dieses Papier stellt eine Methodik vor, die auf multimodalen Sensoren basiert, um ein einfaches, komfortables und schnelles Fallerkennungs- und System zur Erkennung menschlicher Aktivitäten zu konfigurieren, das einfach implementiert und übernommen werden kann. Die Methodik basiert auf der Konfiguration spezifischer Sensortypen, Machine-Learning-Methoden und -Verfahren. Das Protokoll gliedert sich in vier Phasen: (1) Datenbankerstellung (2) Datenanalyse (3), Systemvereinfachung und (4) Evaluierung. Mit dieser Methode haben wir eine multimodale Datenbank zur Sturzerkennung und Erkennung menschlicher Aktivitäten erstellt, nämlich UP-Fall Detection. Es umfasst Datenproben von 17 Probanden, die 5 Arten von Stürzen und 6 verschiedene einfache Aktivitäten durchführen, während 3 Studien. Alle Informationen wurden mit 5 tragbaren Sensoren (Tri-Achsen-Beschleunigungsmesser, Gyroskop und Lichtintensität), 1 Elektroenzephalographhelm, 6 Infrarotsensoren als Umgebungssensoren und 2 Kameras in seitlichen und vorderen Blickwinkeln gesammelt. Die vorgeschlagene neuartige Methodik fügt einige wichtige Schritte hinzu, um eine gründliche Analyse der folgenden Konstruktionsprobleme durchzuführen, um ein Fallerkennungssystem zu vereinfachen: a) auswählen, welche Sensoren oder Sensoren in einem einfachen Fallerkennungssystem verwendet werden sollen, b) die beste Platzierung der Informationsquellen bestimmen und c) die am besten geeignete Klassifizierungsmethode für maschinelles Lernen für die Erkennung und Erkennung von Aktivitäten beim Fall und beim Menschen auswählen. Obwohl sich einige multimodale Ansätze, die in der Literatur berichtet werden, nur auf ein oder zwei der oben genannten Themen konzentrieren, ermöglicht unsere Methodik die gleichzeitige Lösung dieser drei Konstruktionsprobleme im Zusammenhang mit einem menschlichen Fall- und Aktivitätserkennungs- und -erkennungssystem.
Seit dem Weltphänomen der Bevölkerungsalterung1hat die Fallprävalenz zugenommen und gilt eigentlich als großes Gesundheitsproblem2. Wenn ein Sturz eintritt, menschenbrauchen die Menschen sofortige Aufmerksamkeit, um negative Folgen zu reduzieren. Fallerkennungssysteme können die Zeit reduzieren, in der eine Person bei einem Sturz medizinisch versorgt wird.
Es gibt verschiedene Kategorisierungen von Fallerkennungssystemen3. Frühe Arbeiten4 klassifizieren Fallerkennungssysteme nach ihrer Methode der Detektion, grob analytischemethoden und maschinellen Lernmethoden. In jüngerer Zeit haben andere Autoren3,5,6 Datenerfassungssensoren als Hauptmerkmal zur Klassifizierung von Falldetektoren betrachtet. Igual et al.3 unterteilt Fallerkennungssysteme in kontextbewusste Systeme, die Visions- und Umgebungssensor-basierte Ansätze sowie tragbare Gerätesysteme umfassen. Mubashir et al.5 klassifiziert Falldetektoren in drei Gruppen basierend auf den Geräten, die für die Datenerfassung verwendet werden: tragbare Geräte, Ambientesensoren und visionsbasierte Geräte. Perry et al.6 betrachtet Methoden zur Messung der Beschleunigung, Methoden zur Messung der Beschleunigung in Kombination mit anderen Methoden und Methoden, die die Beschleunigung nicht messen. Anhand dieser Erhebungen können wir feststellen, dass Sensoren und Methoden die Hauptelemente für die Klassifizierung der allgemeinen Forschungsstrategie sind.
Jeder der Sensoren hat Schwächen und Stärken, die in Xu et al.7diskutiert werden. Vision-basierte Ansätze verwenden hauptsächlich normale Kameras, Tiefensensorkameras und/oder Motion-Capture-Systeme. Normale Webkameras sind kostengünstig und einfach zu bedienen, aber sie sind empfindlich gegenüber Umgebungsbedingungen (Lichtvariation, Okklusion usw.), können nur auf reduziertem Raum verwendet werden und haben Datenschutzprobleme. Tiefenkameras, wie z. B. die Kinect, bieten Eine Ganzkörper-3D-Bewegung7 und sind weniger von den Lichtverhältnissen betroffen als normale Kameras. Ansätze, die auf dem Kinect basieren, sind jedoch nicht so robust und zuverlässig. Motion Capture-Systeme sind teurer und schwieriger zu bedienen.
Ansätze, die auf Beschleunigungsmessern und Smartphones/Uhren mit eingebauten Beschleunigungsmessern basieren, werden sehr häufig für die Sturzerkennung verwendet. Der Hauptnachteil dieser Geräte ist, dass sie für längere Zeit getragen werden müssen. Beschwerden, Aufdringlichkeit, Körperplatzierung und Orientierung sind Gestaltungsfragen, die in diesen Ansätzen gelöst werden müssen. Obwohl Smartphones und Smartwatches weniger aufdringliche Geräte sind, die Sensoren, ältere Menschen vergessen oder tragen diese Geräte oft nicht immer. Dennoch ist der Vorteil dieser Sensoren und Geräte, dass sie in vielen Räumen und/oder im Freien eingesetzt werden können.
Einige Systeme verwenden Sensoren, die in der Umgebung platziert sind, um Stürze/Aktivitäten zu erkennen, sodass die Menschen die Sensoren nicht tragen müssen. Diese Sensoren sind jedoch auch auf die Orte beschränkt, an denen sie eingesetzt werden8 und sind manchmal schwierig zu installieren. In jüngster Zeit umfassen multimodale Fallerkennungssysteme verschiedene Kombinationen von Vision-, Wearable- und Umgebungssensoren, um mehr Präzision und Robustheit zu erreichen. Sie können auch einige der einzelnen Sensoreinschränkungen überwinden.
Die für die Sturzerkennung verwendete Methode steht in engem Zusammenhang mit der von Bulling et al.9vorgestellten Wertschöpfungskette (Human Activity Recognition Chain), die aus Stufen für die Datenerfassung, Signalvorverarbeitung und -segmentierung, Merkmalsextraktion und -auswahl, Schulung und Klassifizierung besteht. Designprobleme müssen für jede dieser Phasen gelöst werden. In jeder Phase werden unterschiedliche Methoden verwendet.
Wir präsentieren eine Methodik, die auf multimodalen Sensoren basiert, um ein einfaches, komfortables und schnelles System zur Erkennung/Erkennung menschlicher Aktivitäten für menschliche Aktivitäten zu konfigurieren. Das Ziel ist es, ein System für eine genaue Fallerkennung zu bauen, das einfach implementiert und übernommen werden kann. Die vorgeschlagene neuartige Methodik basiert auf ARC, fügt jedoch einige wichtige Phasen hinzu, um eine gründliche Analyse der folgenden Probleme durchzuführen, um das System zu vereinfachen: a) auswählen, welche Sensoren oder Sensoren in einem einfachen Fallerkennungssystem verwendet werden sollen; b) die beste Platzierung der Informationsquellen zu bestimmen; und (c) wählen Sie die am besten geeignete Klassifizierungsmethode für maschinelles Lernen für die Sturzerkennung und die Erkennung menschlicher Aktivitäten aus, um ein einfaches System zu erstellen.
Es gibt einige verwandte Arbeiten in der Literatur, die ein oder zwei der oben genannten Design-Themen behandeln, aber nach unserem Wissen gibt es keine Arbeit, die sich auf eine Methodik konzentriert, um all diese Probleme zu überwinden.
Verwandte Arbeiten verwenden multimodale Ansätze zur Fallerkennung und erkennung menschlicher Aktivitäten10,11,12, um Robustheit zu gewinnen und die Präzision zu erhöhen. Kwolek et al.10 schlugen die Konzeption und Implementierung eines Fallerkennungssystems auf der Grundlage von beschleunigungsmetrischen Daten und Tiefenkarten vor. Sie entwickelten eine interessante Methodik, in der ein dreiachsiger Beschleunigungsmesser implementiert wird, um einen möglichen Sturz sowie die Bewegung der Person zu erkennen. Wenn die Beschleunigungsmessung einen Schwellenwert überschreitet, extrahiert der Algorithmus eine Person, die die Tiefenkarte von der aktualisierten Online-Tiefenreferenzkarte unterscheidet. Eine Analyse der Tiefen- und Beschleunigungskombinationen wurde mit einem Unterstützungsvektor-Maschinenklassifier durchgeführt.
Ofli et al.11 präsentierten eine Multimodal Human Action Database (MHAD), um ein Testfeld für neue Systeme zur Erkennung menschlicher Aktivitäten bereitzustellen. Das Dataset ist wichtig, da die Aktionen gleichzeitig mit 1 optischem Bewegungserfassungssystem, 4 Multi-View-Kameras, 1 Kinect-System, 4 Mikrofonen und 6 drahtlosen Beschleunigungsmessern gesammelt wurden. Die Autoren präsentierten Ergebnisse für jede Modalität: die Kinect, die Mocap, den Beschleunigungsmesser und das Audio.
Dovgan et al.12 schlugen einen Prototypen zur Erkennung von anomalem Verhalten, einschließlich Stürzen, bei älteren Menschen vor. Sie entwickelten Tests für drei Sensorsysteme, um die am besten geeignete Ausrüstung für Diekfall- und ungewöhnliche Verhaltenserkennung zu finden. Das erste Experiment besteht aus Daten eines intelligenten Sensorsystems mit 12 Tags, die an Hüften, Knien, Knöcheln, Handgelenken, Ellbogen und Schultern befestigt sind. Sie erstellten auch einen Test-Datensatz mit einem Ubisense-Sensorsystem mit vier Tags, die an der Taille, der Brust und beiden Knöcheln befestigt sind, und einem Xsens-Beschleunigungsmesser. In einem dritten Experiment verwenden vier Probanden das Ubisense-System nur, während sie 4 Arten von Stürzen, 4 Gesundheitsprobleme als anomales Verhalten und unterschiedliche Aktivität des täglichen Lebens (ADL) durchführen.
Andere Arbeiten in der Literatur13,14,15 befassen sich mit dem Problem, die beste Platzierung von Sensoren oder Geräten für die Fallerkennung zu finden, wodurch die Leistung verschiedener Kombinationen von Sensoren mit mehreren Klassifikatoren verglichen wird. Santoyo et al.13 präsentierten eine systematische Bewertung, in der die Bedeutung der Lage von 5 Sensoren für die Fallerkennung bewertet wurde. Sie verglichen die Leistung dieser Sensorkombinationen mit k-nearest neighbors (KNN), Support Vector Machines (SVM), naive Bayes (NB) und Entscheidungsbaumklassifikatoren (DT). Sie kommen zu dem Schluss, dass die Position des Sensors auf dem Gegenstand einen wichtigen Einfluss auf die Falldetektorleistung unabhängig vom verwendeten Klassifikationsmittel hat.
Einen Vergleich der tragbaren Sensorplatzierungen am Körper zur Sturzerkennung präsentierte Özdemir14. Um die Sensorplatzierung zu bestimmen, analysierte der Autor 31 Sensorkombinationen der folgenden Positionen: Kopf, Taille, Brust, rechtes Handgelenk, rechter Knöchel und rechter Oberschenkel. 14 Freiwillige führten 20 simulierte Stürze und 16 ADL durch. Er fand heraus, dass die beste Leistung erzielt wurde, wenn ein einzelner Sensor auf der Taille aus diesen erschöpfenden Kombinationsexperimenten positioniert ist. Ein weiterer Vergleich wurde von Ntanasis15 anhand von Özdemirs Datensatz präsentiert. Die Autoren verglichen einzelne Positionen an Kopf, Brust, Taille, Handgelenk, Knöchel und Oberschenkel mit den folgenden Klassifikatoren: J48, KNN, RF, Random Committee (RC) und SVM.
Benchmarks der Leistung verschiedener Rechenmethoden zur Sturzerkennung finden sich auch in der Literatur16,17,18. Bagala et al.16 präsentierten einen systematischen Vergleich mit der Leistung von dreizehn Fallnachweismethoden, die bei realen Stürzen getestet wurden. Sie berücksichtigten nur Algorithmen, die auf Beschleunigungsmessermessungen basierten, die an der Taille oder am Rumpf platziert wurden. Bourke et al.17 bewerteten die Leistung von fünf analytischen Algorithmen zur Sturzerkennung anhand eines Datensatzes von ADLs und Stürzen basierend auf Beschleunigungsmesserwerten. Kerdegari18 machte auch einen Vergleich der Leistung verschiedener Klassifizierungsmodelle für eine Reihe von aufgezeichneten Beschleunigungsdaten. Die Algorithmen für die Sturzerkennung waren zeroR, oneR, NB, DT, Multilayer Perceptron und SVM.
Alazrai et al.18 schlugen eine Methode zur Sturzerkennung vor, die einen geometrischen Bewegungs-Pose-Deskriptor verwendete, um eine akkumulierte histogrammbasierte Darstellung menschlicher Aktivität zu konstruieren. Sie werteten das Framework anhand eines Datensatzes aus, der mit Kinect-Sensoren gesammelt wurde.
Zusammenfassend haben wir multimodale Fallerkennungsarbeitengefunden 10,11,12, die die Leistung verschiedener Kombinationen von Modalitäten vergleichen. Einige Autoren befassen sich mit dem Problem der Suche nach der besten Platzierung von Sensoren13,14,15, oder Kombinationen von Sensoren13 mit mehreren Klassifikatoren13,15,16 mit mehreren Sensoren der gleichen Modalität und Beschleunigungsmesser. In der Literatur wurde kein Werk gefunden, das sich gleichzeitig mit Platzierung, multimodalen Kombinationen und Klassifikaten-Benchmarks befasst.
Alle hier beschriebenen Methoden wurden vom Forschungsausschuss der School of Engineering der Universidad Panamericana genehmigt.
HINWEIS: Diese Methode basiert auf der Konfiguration der spezifischen Arten von Sensoren, Machine-Learning-Methoden und -Verfahren, um ein einfaches, schnelles und multimodales Fallerkennungs- und System zur Erkennung menschlicher Aktivitäten zu konfigurieren. Aus diesem Grund ist das folgende Protokoll in Phasen unterteilt: (1) Datenbankerstellung (2) Datenanalyse (3) Systemvereinfachung und (4) Auswertung.
1. Datenbankerstellung
2. Datenanalyse
3. Systemvereinfachung
4. Bewertung
Erstellung einer Datenbank
Wir haben einen multimodalen Datensatz für die Sturzerkennung und die Erkennung menschlicher Aktivitäten erstellt, nämlich UP-Fall Detection21. Die Daten wurden über einen Zeitraum von vier Wochen an der School of Engineering der Universidad Panamericana (Mexiko-Stadt, Mexiko) gesammelt. Das Testszenario wurde unter Berücksichtigung der folgenden Anforderungen ausgewählt: a) ein Raum, in dem die Probanden Stürze und Aktivitäten bequem und sicher durchführen können, und (b) eine Innenumgebung mit natürlichem und künstlichem Licht, die sich gut für multimodale Sensoren eignet.
Es gibt Datenproben von 17 Probanden, die 5 Arten von Stürzen und 6 verschiedene einfache Aktivitäten durchgeführt haben, während 3 Studien. Alle Informationen wurden mit einem internen Datenerfassungssystem mit 5 tragbaren Sensoren (Tri-Achsen-Beschleunigungsmesser, Gyroskop und Lichtintensität), 1 Elektroenzephalographenhelm, 6 Infrarotsensoren als Umgebungssensoren und 2 Kameras an seitlichen und vorderen Aussichtspunkten gesammelt. Abbildung 1 zeigt das Layout der Sensorplatzierung in der Umgebung und auf dem Körper. Die Abtastrate des gesamten Datensatzes beträgt 18 Hz. Die Datenbank enthält zwei Datensätze: den konsolidierten Rohdatensatz (812 GB) und einen Feature-Datensatz (171 GB). Alle Datenbanken, die in der Cloud für den öffentlichen Zugriff gespeichert sind: https://sites.google.com/up.edu.mx/har-up/. Weitere Details zur Datenerfassung, Vorverarbeitung, Konsolidierung und Speicherung dieser Datenbank sowie Details zur Synchronisation und Datenkonsistenz finden Sie in der Unterkunft Martinez-Villase'or et al.21.
Für diese Datenbank waren alle Probanden gesunde junge Freiwillige (9 Männer und 8 Frauen) ohne Beeinträchtigung, im Alter von 18 bis 24 Jahren, mit einer mittleren Körpergröße von 1,66 m und einem Mittleren Gewicht von 66,8 kg. Während der Datenerhebung überwachte der technisch verantwortliche Forscher, ob alle Aktivitäten von den Probanden korrekt durchgeführt wurden. Die Probanden führten fünf Arten von Stürzen durch, jede für 10 Sekunden, als fallend: vorwärts mit Denkhänden (1), vorwärts mit Knien (2), rückwärts (3), sitzend in einem leeren Stuhl (4) und seitlich (5). Sie führten auch sechs tägliche Aktivitäten für 60 s mit Ausnahme des Springens (30 s): Gehen (6), Stehen (7), Aufheben eines Gegenstandes (8), Sitzen (9), Springen (10) und Legen (11). Obwohl simulierte Stürze nicht alle Arten von realen Stürzen reproduzieren können, ist es wichtig, zumindest repräsentative Fallarten einzubeziehen, die die Erstellung besserer Fallerkennungsmodelle ermöglichen. Es ist auch relevant, ADLs und insbesondere Aktivitäten zu verwenden, die in der Regel mit Stürzen verwechselt werden können, wie z. B. das Aufnehmen eines Objekts. Die Arten von Fall- und ADLs wurden nach einer Überprüfung der zugehörigen Fallerkennungssysteme21ausgewählt. Beispiel: Abbildung 2 zeigt eine Abfolge von Bildern einer Studie, wenn ein Motiv seitlich fällt.
Wir extrahierten 12 zeitliche (Mittelwert, Standardabweichung, maximale Amplitude, minimale Amplitude, Wurzelmittelquadrat, Median, Null-Kreuzungszahl, Schiefe, Kurtose, erstes Quartil, drittes Quartil und Autokorrelation) und 6 häufige (Mittelwert, Median, Entropie, Energie, Hauptfrequenz und Spektralzentroid) verfügt über21 aus jedem Kanal des tragbaren und Umgebungssensoren mit insgesamt 756 Features. Wir berechneten auch 400 visuelle Features21 für jede Kamera über die relative Bewegung von Pixeln zwischen zwei benachbarten Bildern in den Videos.
Datenanalyse zwischen unimodalen und multimodalen Ansätzen
Aus der UP-Fall Detection-Datenbank analysierten wir die Daten zu Vergleichszwecken zwischen unimodalen und multimodalen Ansätzen. In diesem Sinne haben wir sieben verschiedene Kombinationen von Informationsquellen verglichen: nur Infrarotsensoren (IR); Nur tragbare Sensoren (IMU); tragbare Sensoren und Helm (IMU+EEG); Infrarot- und tragbare Sensoren und Helm (IR+IMU+EEG); Kameras (NUR CAM); Infrarotsensoren und Kameras (IR+CAM); und tragbare Sensoren, Helm und Kameras (IMU+EEG+CAM). Darüber hinaus haben wir drei verschiedene Zeitfenstergrößen mit 50% Überlappung verglichen: eine Sekunde, zwei Sekunden und drei Sekunden. In jedem Segment haben wir die nützlichsten Features ausgewählt, die die Feature-Auswahl und -Rangfolge anwenden. Mit dieser Strategie haben wir nur 10 Features pro Modalität verwendet, außer in der IR-Modalität mit 40 Funktionen. Darüber hinaus wurde der Vergleich über vier bekannte Machine Learning-Klassifikatoren durchgeführt: RF, SVM, MLP und KNN. Wir verwendeten 10-fache Kreuzvalidierung mit Datensätzen von 70% Zug und 30% Test, um die Machine Learning-Modelle zu trainieren. Tabelle 1 zeigt die Ergebnisse dieses Benchmarks und meldet die beste Leistung, die je nach Machine Learning-Modell und der besten Fensterlängenkonfiguration für jede Modalität erzielt wurde. Die Auswertungsmetriken berichten über Genauigkeit, Genauigkeit, Empfindlichkeit, Spezifität und F1-Score. Abbildung 3 zeigt diese Ergebnisse in einer grafischen Darstellung in Bezug auf F1-Score.
Aus Tabelle 1, multimodale Ansätze (Infrarot- und tragbare Sensoren und Helm, IR+IMU +EEG; und tragbare Sensoren und Helm und Kameras, IMU + EEG +CAM) erhielt die besten F1-Score-Werte, im Vergleich zu unimodalen Ansätzen (nur Infrarot, IR; und Kameras nur, CAM). Wir haben auch festgestellt, dass nur tragbare Sensoren (IMU) eine ähnliche Leistung erreicht haben wie ein multimodaler Ansatz. In diesem Fall haben wir uns für einen multimodalen Ansatz entschieden, da verschiedene Informationsquellen die Einschränkungen von anderen handhaben können. Beispielsweise kann die Aufdringlichkeit von Kameras mit tragbaren Sensoren gehandhabt werden, und nicht alle tragbaren Sensoren können durch Kameras oder Umgebungssensoren ergänzt werden.
In Bezug auf den Benchmark der datengesteuerten Modelle zeigten die Experimente in Tabelle 1, dass RF in fast allen Experimenten die besten Ergebnisse liefert; während MLP und SVM in der Leistung nicht sehr konsistent waren (z. B. zeigt die Standardabweichung in diesen Techniken eine größere Variabilität als bei RF). Über die Fenstergrößen, diese keine wesentliche Verbesserung unter ihnen darstellen. Es ist wichtig zu beachten, dass diese Experimente für die Klassifizierung der menschlichen Aktivitäten durchgeführt wurden.
Sensorplatzierung und beste multimodale Kombination
Auf der anderen Seite wollten wir die beste Kombination von multimodalen Geräten für die Sturzerkennung ermitteln. Für diese Analyse beschränkten wir die Informationsquellen auf die fünf tragbaren Sensoren und die beiden Kameras. Diese Geräte sind die bequemsten für den Ansatz. Darüber hinaus haben wir zwei Klassen in Betracht gezogen: Fall (jede Art von Sturz) oder No-Fall (jede andere Aktivität). Alle Machine Learning-Modelle und Fenstergrößen bleiben die gleichen wie in der vorherigen Analyse.
Für jeden tragbaren Sensor haben wir für jede Fensterlänge ein unabhängiges Klassifikatsmodell erstellt. Wir haben das Modell mit 10-facher Kreuzvalidierung mit 70% Training und 30% Testing-Datensätzen trainiert. Tabelle 2 fasst die Ergebnisse für die Rangfolge der tragbaren Sensoren pro Leistungsklassifikum auf basis des F1-Scores zusammen. Diese Ergebnisse wurden in absteigender Reihenfolge sortiert. Wie in Tabelle 2zu sehen, wird die beste Leistung erzielt, wenn ein einzelner Sensor an der Taille, im Nacken oder in der engen rechten Tasche (Schattenbereich) verwendet wird. Darüber hinaus schnitten tragbare Sensoren für Knöchel und linkes Handgelenk am schlechtesten ab. Tabelle 3 zeigt die Fensterlängenpräferenz pro tragbarem Sensor, um die beste Leistung in jedem Klassifikatzusteller zu erzielen. Aus den Ergebnissen sind Taille, Hals und enge rechte Taschensensoren mit RF-Klassifikater und 3 s Fenstergröße mit 50% Überlappung die am besten geeigneten tragbaren Sensoren für die Sturzerkennung.
Wir haben eine ähnliche Analyse für jede Kamera im System durchgeführt. Wir haben für jede Fenstergröße ein unabhängiges Klassifiermodell erstellt. Für die Schulung haben wir eine 10-fache Kreuzvalidierung mit 70% Schulungen und 30% Testdatensätzen durchgeführt. Tabelle 4 zeigt die Rangfolge des besten Kamera-Ansichtspunktes pro Klassifier, basierend auf dem F1-Score. Wie beobachtet, führte die seitliche Ansicht (Kamera 1) die beste Fallerkennung durch. Darüber hinaus übertraf RF im Vergleich zu den anderen Klassifikatoren. Außerdem zeigt Tabelle 5 die Fensterlängeneinstellung pro Kameraansicht an. Aus den Ergebnissen, fanden wir, dass die beste Position einer Kamera ist in seitlichen Standpunkt mit RF in 3 s Fenstergröße und 50% Überlappung.
Schließlich haben wir zwei mögliche Platzierungen von tragbaren Sensoren (d. h. Taille und enge rechte Tasche) gewählt, die mit der Kamera des seitlichen Standpunkts kombiniert werden sollen. Nach dem gleichen Training haben wir die Ergebnisse aus Tabelle 6erhalten. Wie gezeigt, erhielt der RF-Modellklassifier die beste Leistung in Genauigkeit und F1-Score in beiden Multimodalitäten. Auch die Kombination zwischen Taille und Kamera 1 rangierte an der ersten Position und erhielt 98,72% in der Genauigkeit und 95,77% in F1-Score.
Abbildung 1: Layout der tragbaren (links) und Umgebungssensoren (rechts) in der UP-Fall Detection-Datenbank. Die tragbaren Sensoren sind in der Stirn, dem linken Handgelenk, dem Hals, der Taille, der rechten Tasche der Hose und dem linken Knöchel platziert. Die Umgebungssensoren sind sechs gekoppelte Infrarotsensoren, um das Vorhandensein von Probanden und zwei Kameras zu erkennen. Kameras befinden sich an der Seitlichen Ansicht und an der Frontansicht, sowohl in Bezug auf den menschlichen Sturz. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 2: Beispiel für eine Videoaufzeichnung, die aus der UP-Fall Detection-Datenbank extrahiert wurde. Oben befindet sich eine Abfolge von Bildern eines Themas, das nach einander fällt. Am unteren Rand befindet sich eine Abfolge von Bildern, die die extrahierten Sehelemente darstellen. Diese Features sind die relative Bewegung von Pixeln zwischen zwei benachbarten Bildern. Weiße Pixel stellen eine schnellere Bewegung dar, während schwarze Pixel eine langsamere (oder nahe Null) Bewegung darstellen. Diese Reihenfolge ist chronologisch von links nach rechts sortiert. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Abbildung 3: Vergleichsergebnisse, die den besten F1-Score jeder Modalität in Bezug auf das Machine Learning-Modell und die beste Fensterlänge melden. Balken stellen die Mittelwerte von F1-Score dar. Text in Datenpunkten stellen Mittelwert und Standardabweichung in Klammern dar. Bitte klicken Sie hier, um eine größere Version dieser Abbildung anzuzeigen.
Modalität | Modell | Genauigkeit (%) | Präzision (%) | Empfindlichkeit (%) | Spezifität (%) | F1-Wert (%) |
Ir | HF (3 Sek.) | 67,38 bei 0,65 | 36,45 € 2,46 | 31,26 € 0,89 | 96,63 € 0,07 | 32,16 € 0,99 |
SVM (3 Sek.) | 65,16 € 0,90 | 26,77 € 0,58 | 25,16 € 0,29 | 96,31 € 0,09 | 23,89 € 0,41 | |
MLP (3 Sek.) | 65,69 € 0,89 | 28,19 € 3,56 | 26,40 € 0,71 | 96,41 € 0,08 | 25,13 € 1,09 | |
kNN (3 Sek.) | 61,79 € 1,47 | 30,04 € 1,44 | 27,55 € 0,97 | 96,05 € 0,16 | 27,89 € 1,13 | |
Imu | HF (1 Sek.) | 95,76 € 0,18 | 70,78 € 1,53 | 66,91 € 1,28 | 99,59 € 0,02 | 68,35 € 1,25 |
SVM (1 Sek.) | 93,32 € 0,23 | 66,16 € 3,33 | 58,82 € 1,53 | 99,32 € 0,02 | 60,00 € 1,34 | |
MLP (1 Sek.) | 95,48 € 0,25 | 73,04 € 1,89 | 69,39 € 1,47 | 99,56 € 0,02 | 70,31 € 1,48 | |
kNN (1 Sek.) | 94,90 € 0,18 | 69,05 € 1,63 | 64,28 € 1,57 | 99,50 € 0,02 | 66,03 € 1,52 | |
IMU+EEG | HF (1 Sek.) | 95,92 € 0,29 | 74,14 € 1,29 | 66,29 € 1,66 | 99,59 € 0,03 | 69,03 € 1,48 |
SVM (1 Sek.) | 90,77 € 0,36 | 62,51 € 3,34 | 52,46 € 1,19 | 99,03 € 0,03 | 53,91 € 1,16 | |
MLP (1 Sek.) | 93,33 € 0,55 | 74,10 € 1,61 | 65,32 € 1,15 | 99,32 € 0,05 | 68,13 € 1,16 | |
kNN (1 Sek.) | 92,12 € 0,31 | 66,86 € 1,32 | 58,30 € 1,20 | 98,89 € 0,05 | 60,56 € 1,02 | |
IR+IMU+EEG | HF (2 Sek.) | 95,12 € 0,36 | 74,63 € 1,65 | 66,71 € 1,98 | 99,51 € 0,03 | 69,38 € 1,72 |
SVM (1 Sek.) | 90,59 € 0,27 | 64,75 € 3,89 | 52,63 € 1,42 | 99,01 € 0,02 | 53,94 € 1,47 | |
MLP (1 Sek.) | 93,26 € 0,69 | 73,51 € 1,59 | 66,05 € 1,11 | 99,31 € 0,07 | 68,19 € 1,02 | |
kNN (1 Sek.) | 92,24 € 0,25 | 67,33 € 1,94 | 58,11 € 1,61 | 99,21 € 0,02 | 60,36 € 1,71 | |
Cam | HF (3 Sek.) | 32,33 € 0,90 | 14,45 € 1,07 | 14,48 bei 0,82 | 92,91 € 0,09 | 14,38 € 0,89 |
SVM (2 Sek.) | 34,40 € 0,67 | 13,81 € 0,22 | 14,30 x 0,31 | 92,97 € 0,06 | 13,83 € 0,27 | |
MLP (3 Sek.) | 27,08 € 2,03 | 8,59 x 1,69 | 10,59 € 0,38 | 92,21 € 0,09 | 7,31 x 0,82 | |
kNN (3 Sek.) | 34,03 € 1,11 | 15,32 € 0,73 | 15,54 € 0,57 | 93,09 € 0,11 | 15,19 € 0,52 | |
IR+CAM | HF (3 Sek.) | 65,00 € 0,65 | 33,93 € 2,81 | 29,02 € 0,89 | 96,34 € 0,07 | 29,81 € 1,16 |
SVM (3 Sek.) | 64,07 € 0,79 | 24,10 € 0,98 | 24,18 € 0,17 | 96,17 € 0,07 | 22,38 € 0,23 | |
MLP (3 Sek.) | 65,05 € 0,66 | 28,25 € 3,20 | 25,40 € 0,51 | 96,29 € 0,06 | 24,39 € 0,88 | |
kNN (3 Sek.) | 60,75 € 1,29 | 29,91 € 3,95 | 26,25 € 0,90 | 95,95 € 0,11 | 26,54 € 1,42 | |
IMU+EEG+CAM | HF (1 Sek.) | 95,09 € 0,23 | 75,52 € 2,31 | 66,23 € 1,11 | 99,50 € 0,02 | 69,36 € 1,35 |
SVM (1 Sek.) | 91,16 € 0,25 | 66,79 € 2,79 | 53,82 € 0,70 | 99,07 € 0,02 | 55,82 € 0,77 | |
MLP (1 Sek.) | 94,32 € 0,31 | 76,78 € 1,59 | 67,29 € 1,41 | 99,42 € 0,03 | 70,44 € 1,25 | |
kNN (1 Sek.) | 92,06 € 0,24 | 68,82 € 1,61 | 58,49 € 1,14 | 99,19 € 0,02 | 60,51 € 0,85 |
Tabelle 1: Vergleichsergebnisse, die die beste Leistung jeder Modalität in Bezug auf das Machine Learning-Modell und die beste Fensterlänge (in Klammern) melden. Alle Werte in der Leistung stellen den Mittelwert und die Standardabweichung dar.
# | IMU-Typ | |||
Rf | Svm | Mlp | Knn | |
1 | (98.36) Taille | (83.30) Rechte Tasche | (57.67) Rechte Tasche | (73.19) Rechte Tasche |
2 | (95.77) Hals | (83.22) Taille | (44.93) Hals | (68.73) Taille |
3 | (95.35) Rechte Tasche | (83.11) Hals | (39.54) Taille | (65.06) Hals |
4 | (95.06) Knöchel | (82.96) Knöchel | (39.06) Linkes Handgelenk | (58.26) Knöchel |
5 | (94.66) Linkes Handgelenk | (82.82) Linkes Handgelenk | (37.56) Knöchel | (51.63) Linkes Handgelenk |
Tabelle 2: Rangfolge des besten tragbaren Sensors pro Klassifikater, sortiert nach dem F1-Score (in Klammern). Die Bereiche im Schatten stellen die drei wichtigsten Klassifikatoren für die Sturzerkennung dar.
IMU-Typ | Fensterlänge | |||
Rf | Svm | Mlp | Knn | |
Linker Knöchel | 2 Sek. | 3 Sek. | 1 Sek. | 3 Sek. |
Taille | 3 Sek. | 1 Sek. | 1 Sek. | 2 Sek. |
Hals | 3 Sek. | 3 Sek. | 2 Sek. | 2 Sek. |
Rechte Tasche | 3 Sek. | 3 Sek. | 2 Sek. | 2 Sek. |
Linkes Handgelenk | 2 Sek. | 2 Sek. | 2 Sek. | 2 Sek. |
Tabelle 3: Bevorzugte Zeitfensterlänge in den tragbaren Sensoren pro Klassifikater.
# | Kameraansicht | |||
Rf | Svm | Mlp | Knn | |
1 | (62.27) Seitenansicht | (24.25) Seitenansicht | (13.78) Frontansicht | (41.52) Seitenansicht |
2 | (55.71) Frontansicht | (0.20) Frontansicht | (5.51) Seitenansicht | (28.13) Frontansicht |
Tabelle 4: Rangfolge des besten Kamera-Ansichtspunktes pro Klassifier, sortiert nach dem F1-Score (in Klammern). Die Bereiche im Schatten stellen den obersten Klassifier für die Sturzerkennung dar.
Kamera | Fensterlänge | |||
Rf | Svm | Mlp | Knn | |
Seitenansicht | 3 Sek. | 3 Sek. | 2 Sek. | 3 Sek. |
Frontansicht | 2 Sek. | 2 Sek. | 3 Sek. | 2 Sek. |
Tabelle 5: Bevorzugte Zeitfensterlänge in den Kamera-Ansichtspunkten pro Klassifier.
Multimodale | Klassifizierung | Genauigkeit (%) | Präzision (%) | Empfindlichkeit (%) | F1-Wert (%) |
Taille + Seitenansicht | Rf | 98,72 € 0,35 | 94,01 € 1,51 | 97,63 € 1,56 | 95,77 € 1,15 |
Svm | 95,59 € 0,40 | 100 | 70,26 € 2,71 | 82,51 € 1,85 | |
Mlp | 77,67 € 11,04 | 33,73 € 11,69 | 37,11 € 26,74 | 29,81 € 12,81 | |
Knn | 91,71 € 0,61 | 77,90 € 3,33 | 61,64 € 3,68 | 68,73 € 2,58 | |
Rechte Tasche + Seitenansicht | Rf | 98,41 € 0,49 | 93,64 € 1,46 | 95,79 € 2,65 | 94,69 € 1,67 |
Svm | 95,79 € 0,58 | 100 | 71,58 € 3,91 | 83,38 € 2,64 | |
Mlp | 84,92 € 2,98 | 55,70 bei 11,36 | 48,29 € 25,11 | 45,21 € 14,19 | |
Knn | 91,71 € 0,58 | 73,63 € 3,19 | 68,95 € 2,73 | 71,13 € 1,69 |
Tabelle 6: Vergleichsergebnisse des kombinierten tragbaren Sensors und Kamera-Ansichtsbilds mit 3-Sekunden-Fensterlänge. Alle Werte stellen den Mittelwert und die Standardabweichung dar.
Es ist üblich, dass beim Erstellen eines Datasets Probleme aufgrund von Synchronisierungs-, Organisations- und Dateninkonsistenzproblemen20 auftreten.
Synchronisierung
Bei der Datenerfassung treten Synchronisierungsprobleme auf, da mehrere Sensoren häufig mit unterschiedlichen Abtastraten arbeiten. Sensoren mit höheren Frequenzen erfassen mehr Daten als Sensoren mit niedrigeren Frequenzen. Daher werden Daten aus verschiedenen Quellen nicht korrekt gekoppelt. Selbst wenn Sensoren mit den gleichen Abtastraten laufen, ist es möglich, dass die Daten nicht ausgerichtet werden. In diesem Zusammenhang könnten die folgenden Empfehlungen helfen, diese Synchronisierungsprobleme zu behandeln20:(i) Erfassung von Zeitstempel, Betreff, Aktivität und Versuch in jeder Datenstichprobe, die von den Sensoren erhalten wird; ii) die konsistenteste und weniger häufige Informationsquelle als Referenzsignal für die Synchronisierung verwendet werden muss; und (iii) automatische oder halbautomatische Verfahren verwenden, um Videoaufzeichnungen zu synchronisieren, die eine manuelle Inspektion unpraktisch wären.
Datenvorverarbeitung
Die Datenvorverarbeitung muss ebenfalls erfolgen, und kritische Entscheidungen beeinflussen diesen Prozess: (a) bestimmen Die Methoden für die Datenspeicherung und Datendarstellung mehrerer und heterogener Quellen (b) entscheiden, wie Daten auf dem lokalen Host oder in der Cloud gespeichert werden können (c) wählen Sie die Organisation der Daten, einschließlich der Dateinamen und Ordner (d) und behandeln sie fehlende Datenwerte sowie Redundanzen in den Sensoren , unter anderem. Darüber hinaus wird für die Datenwolke nach Möglichkeit eine lokale Pufferung empfohlen, um datenverlust zum Hochladezeitpunkt zu verringern.
Dateninkonsistenz
Dateninkonsistenzen sind häufig zwischen Versuchen, bei der Abweichungen in der Datenstichprobengröße festgestellt werden. Diese Probleme stehen im Zusammenhang mit der Datenerfassung in tragbaren Sensoren. Kurze Unterbrechungen der Datenerfassung und Datenkollision durch mehrere Sensoren führen zu Dateninkonsistenzen. In diesen Fällen sind Algorithmen zur Inkonsistenzerkennung wichtig, um Onlinefehler in Sensoren zu behandeln. Es ist wichtig zu betonen, dass drahtlose Geräte während des gesamten Experiments häufig überwacht werden sollten. Eine niedrige Batterie kann die Konnektivität beeinträchtigen und zu Datenverlusten führen.
Ethisch
Die Zustimmung zur Teilnahme und die ethische Genehmigung sind bei jeder Art von Experimenten, an denen Menschen beteiligt sind, obligatorisch.
Hinsichtlich der Grenzen dieser Methodik ist es wichtig zu beachten, dass sie für Ansätze konzipiert ist, die unterschiedliche Modalitäten für die Datenerhebung berücksichtigen. Die Systeme können tragbare, Umgebungs- und/oder Visionssensoren enthalten. Es wird vorgeschlagen, den Stromverbrauch von Geräten und die Lebensdauer von Batterien in drahtlosen Sensoren zu berücksichtigen, aufgrund von Problemen wie Verlust der Datenerfassung, abnehmender Konnektivität und Stromverbrauch im gesamten System. Darüber hinaus ist diese Methode für Systeme gedacht, die maschinelle Lernmethoden verwenden. Eine Analyse der Auswahl dieser Machine Learning-Modelle sollte im Voraus durchgeführt werden. Einige dieser Modelle könnten genau sein, aber sehr zeit- und energieaufwendig. Ein Kompromiss zwischen genauer Schätzung und begrenzter Ressourcenverfügbarkeit für die Datenverarbeitung in Machine Learning-Modellen muss berücksichtigt werden. Es ist auch wichtig zu beachten, dass bei der Datenerhebung des Systems die Tätigkeiten in der gleichen Reihenfolge durchgeführt wurden; auch wurden Versuche in der gleichen Reihenfolge durchgeführt. Aus Sicherheitsgründen wurde eine Schutzmatratze verwendet, auf die die Probanden fallen können. Darüber hinaus wurden die Stürze selbst initiiert. Dies ist ein wichtiger Unterschied zwischen simulierten und realen Stürzen, die in der Regel in Richtung harter Materialien auftreten. In diesem Sinne fällt dieser aufgezeichnete Datensatz mit einer intuitiven Reaktion, die versucht, nicht zu fallen. Darüber hinaus gibt es einige Unterschiede zwischen realen Rückgängen bei älteren oder behinderten Menschen und den Simulationsrückgängen; und diese müssen bei der Entwicklung eines neuen Fallerkennungssystems berücksichtigt werden. Diese Studie konzentrierte sich auf junge Menschen ohne Beeinträchtigungen, aber es ist bemerkenswert zu sagen, dass die Auswahl der Probanden an das Ziel des Systems und die Zielgruppe, die es verwenden wird, ausgerichtet werden sollte.
Aus den oben beschriebenen Verwandten10,11,12,13,14,15,16,17,18, können wir beobachten, dass es Autoren gibt, die multimodale Ansätze verwenden, die sich auf die Erlangung robuster Falldetektoren konzentrieren oder sich auf die Platzierung oder Leistung des Klassifiierers konzentrieren. Daher behandeln sie nur ein oder zwei der Designprobleme für die Sturzerkennung. Unsere Methodik ermöglicht die gleichzeitige Lösung von drei der wichtigsten Konstruktionsprobleme eines Fallerkennungssystems.
Für zukünftige Arbeiten schlagen wir die Entwicklung und Implementierung eines einfachen multimodalen Fallerkennungssystems auf der Grundlage der ergebnisse, die nach dieser Methodik erzielt wurden, vor. Für die reale Akzeptanz sollten Transfer-Learning, hierarchische Klassifizierungunden und Deep Learning-Ansätze für die Entwicklung robusterer Systeme verwendet werden. Bei unserer Implementierung wurden keine qualitativen Metriken der Machine Learning-Modelle berücksichtigt, aber Echtzeit- und begrenzte Rechenressourcen müssen bei der Weiterentwicklung von Systemen zur Erkennung/Erkennung von Aktivitäten berücksichtigt werden. Schließlich können zur Verbesserung unseres Datensatzes, Stolpern oder fast sinkende Aktivitäten und Echtzeitüberwachung von Freiwilligen während ihres täglichen Lebens in Betracht gezogen werden.
Die Autoren haben nichts zu verraten.
Diese Forschung wurde von der Universidad Panamericana durch das Stipendium "Fomento a la Investigacion UP 2018" unter dem Projektcode UP-CI-2018-ING-MX-04 finanziert.
Name | Company | Catalog Number | Comments |
Inertial measurement wearable sensor | Mbientlab | MTH-MetaTracker | Tri-axial accelerometer, tri-axial gyroscope and light intensity wearable sensor. |
Electroencephalograph brain sensor helmet MindWave | NeuroSky | 80027-007 | Raw brainwave signal with one forehand sensor. |
LifeCam Cinema video camera | Microsoft | H5D-00002 | 2D RGB camera with USB cable interface. |
Infrared sensor | Alean | ABT-60 | Proximity sensor with normally closed relay. |
Bluetooth dongle | Mbientlab | BLE | Dongle for Bluetooth connection between the wearable sensors and a computer. |
Raspberry Pi | Raspberry | Version 3 Model B | Microcontroller for infrared sensor acquisition and computer interface. |
Personal computer | Dell | Intel Xeon E5-2630 v4 @2.20 GHz, RAM 32GB |
Genehmigung beantragen, um den Text oder die Abbildungen dieses JoVE-Artikels zu verwenden
Genehmigung beantragenThis article has been published
Video Coming Soon
Copyright © 2025 MyJoVE Corporation. Alle Rechte vorbehalten