Microsoft Word - Deep Learning vs Traditional Models_Abdel Hai_Final.Part 2
Jan 03, 2024
Pentru a pregăti datele pentru modelele de învățare automată au fost efectuate următoarele tehnici de preprocesare a datelor.
Datele și memoria sunt strâns legate. În societatea modernă, primim o cantitate mare de informații și date în fiecare zi, inclusiv text, imagini, videoclipuri etc. Cum să procesăm și să organizăm eficient aceste date ne cere să avem o memorie puternică.
Pe de o parte, datele ne pot oferi suport de memorie. De exemplu, atunci când învățăm cunoștințe noi, putem înțelege și stăpâni punctele de cunoștințe mai rapid și mai bine prin memorarea datelor și faptelor relevante. Acest tip de metodă de învățare ne poate ajuta să construim o memorie puternică și să menținem capacitatea de a controla cunoștințele pentru o perioadă lungă de timp.
Pe de altă parte, datele ne pot ajuta, de asemenea, să ne antrenăm și să îmbunătățim memoria. Prin diferite metode de antrenare a memoriei, putem folosi în mod flexibil datele pentru a efectua antrenamentul memoriei, pentru a ne îmbunătăți capacitatea de memorie într-o anumită măsură și, astfel, ne putem adapta mai bine la dezvoltarea societății și la nevoile muncii și vieții.
Se poate observa că relația dintre date și memorie este foarte strânsă și importantă. Numai prin procesarea și utilizarea datelor în mod activ și eficient, putem folosi mai bine capacitățile noastre de memorie și obținem rezultate mai bune. Prin urmare, ar trebui să tratăm în mod activ relația dintre date și memorie, să facem antrenament și aplicații relevante și să ne îmbunătățim constant abilitățile. Se poate observa că trebuie să îmbunătățim memoria, iar Cistanche deserticola poate îmbunătăți semnificativ memoria, deoarece Cistanche deserticola poate regla și echilibrul neurotransmițătorilor, cum ar fi creșterea nivelului de acetilcolină și a factorilor de creștere. Aceste substanțe sunt foarte importante pentru memorie și învățare. În plus, carnea poate, de asemenea, să îmbunătățească fluxul sanguin și să promoveze livrarea de oxigen, ceea ce poate asigura că creierul primește suficiente nutrienți și energie, îmbunătățind astfel vitalitatea și rezistența creierului.

Faceți clic pe cunoașteți modalități de îmbunătățire a funcției creierului
Caracteristicile categoriale erau unul codificat la cald; Caracteristicile continue și discrete au fost normalizate folosind tehnici de normalizare min-max,32 definite ca:
![]()
Au existat un număr diferit de înregistrări în fiecare întâlnire pentru fiecare dintre următoarele caracteristici. Astfel, au fost calculate în schimb următoarele valori statistice. Pentru tensiunea arterială diastolică și sistolică, am calculat valorile minime, maxime și medii.
Pentru IMC, s-au folosit minim, maxim, medie și coeficient de varianță. Aceste valori statistice au fost normalizate și utilizate ca caracteristici. În plus, numărul de caracteristici a fost diferit la întâlniri datorită numărului diferit de teste de laborator, diagnostice și proceduri. O întâlnire poate avea mai multe diagnostice și/sau coduri de procedură sau niciunul.
Pentru a remedia acest lucru și a unifica dimensionalitatea vectorilor de caracteristici, au fost utilizate următoarele tehnici de reprezentare a datelor pentru a îmbunătăți învățarea modelelor. Pentru diagnosticare și coduri de procedură, am folosit reprezentarea codificărilor one-hot, unde fiecare valoare a fost setată la 0 sau 1, indicând dacă a existat sau nu un cod de diagnostic/procedură pentru fiecare întâlnire. Am modificat ușor această tehnică de reprezentare a datelor pentru teste de laborator, deoarece fiecare test a avut un rezultat asociat.
Prin urmare, am înlocuit 1, care indica că există un cod, cu rezultatul de laborator. Rezultatele de laborator au fost normalizate folosind ecuația 1. Deoarece rezultatele au fost de unități și măsuri diferite, la normalizarea rezultatelor de laborator, am luat în considerare minim și maxim pentru fiecare cod de laborator separat. Această tehnică a creat o matrice rară de dimensiuni mari datorită numeroaselor coduri unice.
Apoi, am folosit algoritmul de descompunere a valorii singulare (SVD) pentru a învăța o încorporare și o dimensionalitate redusă. A fost folosit SVD deoarece nu presupune o matrice pătrată ca intrare și este mai bun pentru date rare.33 Testele de laborator au fost reduse la 50 de componente, procedură codurile au fost reduse la 45 de componente, iar codurile de diagnosticare au fost reduse la 25 de componente.
Au fost explorate diferite componente și a fost observată suma de varianță pentru a determina numărul optim de componente pentru a reduce dimensionalitatea. Toate caracteristicile au fost concatenate într-un vector de caracteristici pentru fiecare întâlnire. SVD a fost aplicat la fiecare întâlnire separat pentru a reduce și unifica dimensiunile; dimensiunea întâlnirilor a fost redusă la 50 de caracteristici pe întâlnire.

Apoi, am concatenat toate întâlnirile pentru un anumit pacient într-un vector caracteristic ordonat secvenţial după data admiterii. Distribuția claselor a fost de 27.511 pacienți fără readmisie (clasa negativă) și 9.130 de pacienți care au fost readmiși (clasa pozitivă).
Abordări experimentale
Am efectuat experimente extinse folosind datele EHR pentru a aborda următoarele obiective:
- Preziceți dacă pacienții cu diabet vor fi readmiși în termen de 30 de zile
- Comparați performanța metodelor DL utilizate cu mai multe modele tradiționale
- Analizați câte întâlniri anterioare (de exemplu, date istorice) în decurs de 2 ani este optim pentru a prezice readmisia
- Evaluați efectele încorporării tuturor testelor de laborator în date versus învățarea dintr-un subset de teste alese de un expert în domeniu
În acest studiu, modelele DL iau ca intrare un 3-3-tensor dimensional � x � x � pentru a reprezenta f caracteristici pentru fiecare dintre ei întâlniri pentru p pacienți. Spre deosebire de modelele tradiționale, datele sunt de obicei reprezentate ca o matrice 2-dimensională, cu toate caracteristicile tuturor întâlnirilor corespunzând unui singur pacient concatenat într-un vector de caracteristici lungi.
Dimensionalitatea fiecărei întâlniri a fost redusă și unificată la 50 de caracteristici, prin urmare, într-un model profund � este de dimensiunea 50. Într-un model tradițional, vectorul de caracteristică constă din toate întâlnirile și, prin urmare, are dimensiunea � x 50.
Pacienții au un număr diferit de întâlniri care au ca rezultat dimensiuni neuniforme; prin urmare, vectorii de caracteristici au fost completați cu 0 pentru a obține o formă unificată. Reprezentarea datelor utilizată ca intrare pentru modelele DL și tradiționale este ilustrată în panourile din stânga și din dreapta din Figura 1, respectiv.
Pentru a modela date secvențiale eterogene, am dezvoltat 2 variante de modele DL și am comparat ambele față de câteva modele tradiționale utilizate ca linii de bază. Modelele DL utilizate în studiul nostru au fost: 1) rețele 1-mod Long Short-Term Memory (LSTM), care sunt o variantă a rețelei neuronale recurente (RNN) care este capabilă să învețe date nesecvențiale ale dependenței de ordine32; și 2) Bidirectional Gated Recurrent Unit (GRU), care este o altă variantă a RNN.
Modelele tradiționale utilizate ca linii de bază au fost: 1) Pădurea aleatorie (RF), o metodă de ansamblu pentru clasificare și regresie; în timpul antrenamentului, construiește mai mulți arbori de decizie;30 RF realizează frecvent performanța de ultimă generație în literatura existentă despre predicții folosind date medicale. 2) Multi-layer Perceptron (MLP), un model simplu de rețea neuronală care nu ține cont de informațiile temporale.
MLP constă din mai multe straturi de perceptron, realizează învățarea retropropagarii și utilizează o funcție de activare neliniară.31 3) Regresia logistică (LR), un model interpretabil utilizat frecvent în literatura existentă de predicții de readmisie și aplicat datelor medicale; și 4) AdaBoost, care este mai puțin predispus la supraadaptare, deoarece parametrii săi de intrare nu sunt optimizați în comun.

Modelele DL au fost implementate folosind bibliotecile Python „Keras”, un API de nivel înalt al „TensorFlow”. Biblioteca „Scikit-learn” a fost utilizată pentru a implementa modele tradiționale în Python.
Arhitectura modelului propus, LSTM, cuprinde 128 de neuroni, un strat secvenţial, un strat de remodelare care a fost folosit pentru a remodela intrarea la un tensor 3-dimensional şi un strat de mascare cu o valoare a măştii de 0 folosit pentru a sări peste pașii pentru care lipseau datele.
Deoarece umplutura cu 0 a fost efectuată pentru a unifica dimensiunile, stratul de mascare a fost utilizat pentru a evita orice calcul cu valorile lipsă în toate straturile care urmează stratului de mascare, prin urmare, valorile lipsă nu au fost luate în considerare în timpul învățării.
În plus, a fost adăugat un abandon între straturile ascunse și cele de ieșire. Utilizarea acestei tehnici pentru a selecta aleatoriu un anumit procent pentru a reduce este o tehnică de regularizare comună care ajută modelul să învețe modele generale în date.
RNN este o variantă a rețelelor neuronale, care constau din neuroni ascunși care sunt capabili să analizeze datele EHR temporale.32 RNN cuprinde aceeași structură ca și rețeaua neuronală de bază, dar neuronii din același strat sunt conectați, permițând unui neuron să învețe de la același nivel. straturile învecinate, pe lângă învățarea din ieșirile straturilor anterioare și datele de intrare. Astfel, neuronii RNN includ două surse de intrări, prezentul și trecutul recent. Procesul de învățare este definit ca:

Pentru a calcula valoarea �" a unui neuron ascuns, �, o funcție de transformare neliniară, ReLU, este aplicată valorii ponderate a neuronului său ascuns stâng �"#$ și valorii ponderate � a intrării sale �".
Predicțiile sunt calculate folosind funcția asigmoidă a sumei ponderate � a tuturor neuronilor ascunși cu părtinire adăugată �. Dezavantajul RNN este că suferă de problema gradientului de dispariție, ceea ce înseamnă că ponderile rămân neschimbate, ceea ce face dificilă convergerea modelului, prin urmare, modelul se luptă să învețe.
Pentru a rezolva acest lucru, a fost introdus un strat LSTM în care neuronii sigmoid ai RNN sunt înlocuiți cu o structură de memorie pe termen scurt mai complexă. LSTM împărtășește aceleași ponderi peste straturi, ceea ce reduce numărul de parametri pe care îi calculează rețeaua.

GRU este o soluție alternativă pentru problema gradientului de dispariție. Înlocuiește neuronul simplu cu o unitate gated, care are mai puțini parametri decât neuronii LSTM, deoarece îi lipsește o poartă de ieșire.33
For more information:1950477648nn@gmail.com






