. . . . . . . .
. . .
Il segreto della felicità è la libertà. Il segreto della libertà è il coraggio. "- Tucidide. Θουκυδίδης, Thūkydídēs -Atene,ca. a.C. 460 a.C.- dopo il 440 a.C. -

dal 1764 voce illuminista a Milano

7 lug 2016

Analisi di incidente stradale oraria conta con clustering gerarchico e il coefficiente di correlazione cophenetic (CPCC)

Analisi di incidente stradale oraria conta con clustering gerarchico e il coefficiente di correlazione cophenetic (CPCC)

Journal of Big Data20163 : 13
DOI: 10,1186 / s40537-016-0046-3
Ricevuto: 7 Maggio 2016
Accettato: 16 giu 2016
Pubblicato: 5 lug 2016 e  il caffè pubblicato il 7 lug 2016.

astratto

Stradali e incidenti stradali sono una preoccupazione importante in tutto il mondo. Gli incidenti stradali non riguarda solo la salute pubblica con diversi livelli di danno, ma comporta anche danni alla proprietà. L'analisi dei dati ha la capacità di identificare le diverse ragioni dietro gli incidenti stradali vale a dire le caratteristiche del traffico, le caratteristiche climatiche, le caratteristiche della strada e ecc Una varietà di ricerca sull'analisi dei dati incidente stradale ha già dimostra la sua importanza. Alcuni studi si sono concentrati sull'identificazione dei fattori associati alla gravità dell'incidente, mentre altri si concentrano sull'individuazione dei fattori associati alla base verificarsi incidenti. Questi ricerca analizza utilizzato metodi statistici tradizionali, così come i metodi di data mining. Il data mining è il metodo utilizzato di frequente per l'analisi dei dati sugli incidenti stradali nella presente ricerca. L'analisi delle tendenze è un altro importante settore di ricerca nel dominio incidente stradale. L'analisi delle tendenze può aiutare a identificare il tasso di aumentare o diminuire gli incidenti in diversi motivi. In questo studio, abbiamo proposto un metodo per analizzare i dati sugli incidenti stradali ogni ora utilizzando il coefficiente di correlazione Cophenetic da stato del Gujarat in India. Il motivo di questo studio è quello di fornire un modo efficace per scegliere il migliore metrica distanza adeguata per raggruppare le serie di dati conta che forniscono un risultato migliore di clustering. Il risultato mostra che il metodo proposto è in grado di efficacemente raggruppare i diversi quartieri con simili modelli di incidenti stradali in singolo cluster o di un gruppo che può essere ulteriormente utilizzati per l'analisi delle tendenze o attività simili.

parole

Analisi degli incidenti Clustering coefficiente di correlazione Cophenetic data mining

sfondo

Stradali e incidenti stradali sono una delle principali cause di mortalità e di disabilità in tutto il mondo. incidente stradale può essere considerato come un evento in cui un veicolo scontra con altro veicolo, persona o altri oggetti. Un incidente stradale non solo fornisce danni alla proprietà, ma può portare a invalidità totale o parziale e, a volte può essere fatale per l'essere umano. Aumentando il numero di incidenti stradali non è un buon segno per la sicurezza del trasporto. L'unica soluzione richiede l'analisi dei dati relativi agli incidenti del traffico per identificare diverse cause di incidenti stradali e l'adozione di misure preventive.
Una varietà di ricerca è stata fatta su dati sugli incidenti stradali provenienti da diversi paesi. Diversi studi di ricerca utilizzate tecniche differenti per analizzare i dati sugli incidenti stradali che utilizzano tecniche statistiche e di fornire risultati fruttuosi [ 1 , 2 , 3 , 4 , 5 ]. Diversi altri studi hanno utilizzato tecniche di data mining per analizzare i dati sugli incidenti stradali e anche affermare che le tecniche di data mining sono più avanzate e meglio di tecniche statistiche tradizionali [ 6 , 7 , 8 , 9 , 10 , 21 , 22 ]. Sebbene, sia i metodi di cui buon esito che certamente utile per incidente stradale previsione, [ 9 , 11 , 12 ] rivela che l'eterogeneità nei dati di incidente stradale esiste e deve essere rimosso prima dell'analisi dei dati incidenti stradali. Essi hanno anche suggerito che l'uso di opportune tecniche di clustering prima della analisi dei dati relativi agli incidenti riduce l'eterogeneità dai dati e può aiutare a rivelare informazioni nascoste.
Oltre a tutti questi studi che si sono concentrati sull'analisi dei dati degli incidenti stradali e identificare i fattori che colpisce la gravità di incidente stradale, analisi dei trend dei dati relativi agli incidenti stradali può essere utile anche per comprendere la natura degli incidenti stradali in certi luoghi. Dati di serie temporali costituito da un insieme di punti o valori di dati che sono stati misurati su un certo intervallo di tempo [ 13 ]. Dati di serie temporali è molto importante e utile per comprendere la natura della tendenza in diverse applicazioni come ad esempio il rilevamento di tendenza tempo e la previsione di tendenza del mercato azionario in un periodo di anni. Questo è il fattore motivante di questo studio. In questo studio, abbiamo distribuito 1 anno conta di incidenti stradali in 12 slot. Ogni slot è che rappresenta il numero totale di incidente stradale che si è verificato in 2 h di slot. Più in particolare, abbiamo diviso 24 h in 12 slot con 2 h in ogni fessura e in dati di serie temporali, SLOT1 è che rappresenta il numero totale di incidenti stradali si è verificato in 00:00-02:00 nel periodo di 1 anno. Quindi, abbiamo un totale di 60 conteggi per una durata cinque anni nei nostri dati di serie temporali. Abbiamo estratto questi dati per tutti i 26 distretti del Gujarat. Al fine di analizzare questi dati, stiamo usando il clustering gerarchico su tutti i dati di serie temporali 26. Il problema di clustering gerarchico dei dati temporali è che è molto difficile e insolito decidere manualmente la distanza metrica da utilizzare con l'algoritmo di clustering. La scelta sbagliata di distanza metrica si traduce sicuramente in cluster danneggiati. Il nostro approccio è abbastanza affrontare questo problema. Pertanto, il metodo può essere applicato prima raggruppamento dei dati per trovare la distanza più adatto metrica per clustering. Quindi, prima di clustering, abbiamo utilizzato il coefficiente di correlazione Cophenetic (CPCC) [ 14 ] per confrontare le varie misure di distanza con tutte le sette versioni di agglomerativo clustering gerarchico. CPCC può essere definita come una misura della correlazione tra la distanza cophenetic di due oggetti dati serie temporali e la matrice originale distanza. La migliore misura di distanza che ha il valore CPCC forte viene scelto per il clustering gerarchico sui dati di serie temporali. Clustering sui dati di serie temporali e analisi delle tendenze di ogni cluster mostra che tutti gli oggetti serie temporali in ogni cluster con modelli simili. Pertanto, al fine di effettuare un'analisi di tendenza dei dati di serie temporali da diverse posizioni o distretti, il nostro approccio è adatto ad applicare prima dell'inizio analisi di tendenza degli incidenti stradali. I risultati dimostra che il nostro approccio è in grado di mettere tutti quartiere che hanno modelli di incidenti simili in un cluster, che sarà sicuramente facilitare la difficoltà nella gestione di incidenti stradali dati di serie temporali di luoghi diversi insieme.

metodi


Serie normalizzazione Tempo

Normalizzazione dei dati è un dato passo pre-elaborazione che si riferisce al processo di assegnazione differenti valori dato in certa gamma esempio, 0 e 1. Normalizzazione dei dati temporali prima dell'analisi certamente aiutare nella gestione di alcune difficoltà come il rumore, scalatura ampiezza e traduzione di offset [ 15 ]. Quindi, è bene eseguire la normalizzazione dei dati di serie storiche per generare risultati migliori. Abbiamo usato metodo di normalizzazione z-score per normalizzare i nostri dati di serie temporali. Z-score normalizzazione standardizzato i punti dati in una gamma di [0, 1]. Si consideri una serie temporale T = {T 1 , T 2 , ..., T n }, z-score normalizzazione standardizzare questa serie di tempo in una serie temporale normalizzare NT = {NT 1 , NT 2 , ..., NT n } tale che

μ(NT)0eσ(NT)1
dove μ (NT) e σ (NT) sono la media e la deviazione standard, rispettivamente, di serie temporali normalizzato NT.La formula z-score per le serie temporali normalizzazione è data dalla eq.  1 .

NT=Σio=1nt1-μ(T)σ(T)
(1)

misure di distanza

Ci sono diversi misura di distanza esiste [ 16 ] come la distanza euclidea, il coefficiente di correlazione di Pearson, Spearman distanza ed ecc Queste distanze giocano un ruolo molto importante nei dati di serie temporali di clustering. Alcuni della metrica distanza utilizzata in questo studio è brevemente discusso come segue:

Distanza euclidea

Distanza euclidea è una misura di somiglianza popolare e classico usato in vari algoritmi di clustering come K-means e clustering gerarchico. Distanza euclidea può essere definita come la distanza tra due punti o vettori in norma euclidea. Distanza euclidea tra due serie storiche di uguale lunghezza può essere calcolata usando l'Eq. 2 come segue:

Deuclideo(T1,T2)=Σj=1n(T1j-T2j)2
(2)
L'equazione di cui sopra viene usata per calcolare la distanza tra due serie temporali di lunghezza simile della sequenza temporale n.

Città blocco a distanza

E 'noto anche come Manhattan distanza o distanza valore assoluto. Esso rappresenta la distanza tra i punti in una strada griglia della città. La distanza blocco della città tra due oggetti serie temporali può essere calcolato come

DCityBlock(T1,T2)=Σj=1n(T1j-T2j)
(3)

Minkowski distanza

La distanza Minkowski può essere definita come una metrica in uno spazio normato che può essere considerato come una generalizzazione sia la distanza euclidea e la distanza di Manhattan. La distanza Minkowski di ordine p tra due punti T1 e T2 dove T1 = (T1 1 , T1 2 , ..., T1 n ) e T2 = (T2 1 , T2 2 , ..., T2 n ) può essere definita come

DMionKowSKio(T1,T2)=(Σio=1n|T1io-T2io|p)1p
(4)
Se p ≥ 1, la distanza sarà il risultato di Minkowski disuguaglianza. Se p <1, viola la disuguaglianza triangolare, quindi, per p <1, non può essere considerato come metrica.

Chebyshev distanza

Chebyshev distanza è una metrica [ 17 ] definito su uno spazio vettoriale in cui la distanza tra due vettori è la più grande delle loro differenze lungo dimensione coordinare [ 18 ]. La distanza Chebyshev tra due oggetti o punti serie temporali  p  e  q , con standard di coordinate p I  e q i , rispettivamente, è

DCheByShev=max(|pio-qio|)
(5)
Questa distanza è uguale al limite della L p  metriche

limK(Σio=1n|pio-qio|K)1K
Quindi, è noto anche come L  metrica.

Cosine distanza

Cosine distanza può essere definita come una misura di similarità tra oggetti due serie temporali che misura il coseno dell'angolo tra due oggetti serie temporale. Coseno somiglianza è solo un giudizio di orientamento, ma non grandezza. Il coseno di due serie di oggetti in tempo può essere definita dalla seguente equazione:

unB=||un||||B||cosθ
La distanza tra due cosine serie temporali oggetti T1 e T2 può essere calcolata come

DCoSione=1-T1T2'(T1T1')(T2T2)'
(6)

distanza correlazione

Correlazione distanza [ 19 ] è una misura di dipendenza statistica tra due oggetti serie temporale. Se i due oggetti sono statisticamente indipendenti, la correlazione tra i due sarà 0. Il valore per gli intervalli di distanza di correlazione da.
[-1, +1] Seconda della correlazione negativa tra due oggetti o correlazione positiva tra due oggetti. La distanza di correlazione tra due serie temporali oggetti T1 e T2 può essere calcolata come

DCoRReluntioon=1-(T1-T1')(T2-T2')'(T1-T1')(T1-T1')'(T2-T2')(T2-T2')'
(7)

Spearman distanza

Questa distanza basata sul coefficiente di correlazione di Spearman. E 'una misura non parametrica della dipendenza statistica tra due oggetti. Esso descrive la forza della relazione tra due oggetti utilizzando una funzione monotona. Un valore di -1 o +1 verifica quando entrambi gli oggetti sono buona funzione monotona tra loro. Esso può essere calcolato come

DSpeunRmunn=1-(R1-R1')(R2-R2')'(R1-R1')(R1-R1')'(R2-R2')(R2-R2')'
(8)
dove sono i vettori coordinate-saggio rango di T 1 e T 2 tale che .R1R2Rio=(Tio1,Tio2,...,Tion)

coefficiente di correlazione Cophenetic (CPCC)

clustering gerarchico collegati tra loro due punti di dati o oggetti dai dati originali fissati a tutti i livelli fino a quando non gli oggetti sono lì per LINK. L'altezza del collegamento illustra la distanza tra i due gruppi che consiste di tali oggetti. Questa altezza è noto come la distanza Cophenetic tra due oggetti. I valori CPCC vicino a 1 sono considerati come bene. CPCC può essere utilizzato per confrontare il risultato di clustering dello stesso insieme di dati utilizzando diverse misure di distanza o algoritmi di clustering. In generale, CPCC è una misura di quanto accuratamente un dendrogramma conserva le distanze coppia-saggio tra gli oggetti serie temporali.
Supponiamo di avere un insieme di dati di serie temporali di essere modellati utilizzando un metodo di clustering per la produzione di un dendrogramma i IE, un modello di cluster in cui i vicini punti di dati sono raggruppati insieme in una struttura ad albero gerarchico.
Let è la distanza euclidea tra  i esima e  j esima oggetti serie temporali e la distanza dendrogrammatic tra le due serie di tempo oggetti  i  e  j . Questa distanza è l'altezza del nodo a cui questi due punti vengono prima uniti.diojtioj 
Supponendo   pari alla media del  e   la media del , il coefficiente di correlazione cophenetic può essere indicata comedioj'diojtioj'tioj

CoeffiocioentCPCC=Σio<j(dioj-dioj')(tioj-tioj')(Σio<j(dioj-dioj')2)(Σio<j(tioj-tioj')2)
(9)
Useremo CPCC per calcolare le prestazioni di ogni distanza metrica discusso in " misure di distanza sezione" per identificare la migliore distanza metrica da utilizzare per il clustering dei dati di conteggio incidenti stradali ogni ora.

clustering gerarchico

Hierarchical Clustering [ 20 ] è una tecnica di apprendimento non supervisionato popolare che cerca di costruire una gerarchia di cluster. E 'ampiamente suddivisa in due categorie: agglomeranti e di divisione. Agglomerative clustering segue un approccio bottom up, cioè ogni oggetto di dati inizia nel proprio cluster e ulteriori oggetti chiusi sono fusi insieme e forma nuovo cluster. Questo processo si ripete fino a quando non ci sono oggetti rimane a fondersi. A differenza di clustering agglomerativo, il clustering di divisione segue approccio top-down in cui oggetti di tutti i dati inizia in un cluster e la divisione tra gli oggetti di dati continua finché ogni oggetti di dati appartiene ad un singolo cluster. Tuttavia, il clustering agglomerativo (tempo di esecuzione complessità O (n 3 )) è computazionalmente efficiente di algoritmo di clustering di divisione (in esecuzione tempo di complessità O (2 n)). Pertanto, in questo documento, abbiamo utilizzato un algoritmo di clustering gerarchico agglomerativo che è dato come segue: https://static-content.springer.com/image/art%3A10.1186%2Fs40537-016-0046-3/MediaObjects/40537_2016_46_Figa_HTML.gif

Descrizione set di dati

I dati secondari di conteggio oraria degli incidenti stradali per lo stato Gujrat è stato estratto dal set di dati fornito da GVK_EMRI, Gujrat. Il set di dati è costituito da incidenti stradali conteggio dei 26 distretti di stato Gujrat da gennaio 2010 a dicembre 2014.

risultati e discussione

Inizialmente, tutti i dati di serie temporali di 26 distretti sono normalizzati utilizzando z-score normalizzazione, vale a dire, tutti i conteggi degli incidenti stradali per 26 distretti sono in tale gamma che significa che è vicino a 0 e la loro deviazione standard è vicino a 1.

Distanza selezione metrica

Dopo la normalizzazione dei dati di serie temporali di 26 distretti, il compito successivo è quello di trovare la migliore distanza adeguata metrica di raggruppare i dati relativi agli incidenti stradali di serie temporali con clustering gerarchico. Quindi, abbiamo calcolato il CPCC utilizzando tutte e sette le versioni di algoritmo di clustering agglomerativo con tutte le metriche di distanza discusso sulla conta serie temporali oraria di 26 distretti del Gujarat. Il risultato di questa analisi è mostrato nella Tabella  1 .
Tabella 1
Analisi CPCC per 26 distretti del Gujarat per diversi distanza metrica
 Distanza metrica
coefficiente di correlazione Cophenetic (CPCC)
singolo
Completare
Media
reparto
ponderata
Mediano
centroid
euclideo
0.784227
0.791608
0.826298
0,63,921 mila
0.760709
0.739566
0.812102
Cityblock
0.795472
0.720603
0.822869
0.617237
0.814186
0.757599
0.800933
Minkowski
0.784227
0.791608
0.826298
0,63,921 mila
0.760709
0.739566
0.812102
Chebychev
0.747701
0.621421
0,78,132 mila
0.620067
0.756454
0.684826
0.730986
Coseno
0,73,324 mila
0,73,852 mila
0.779876
0,63,823 mila
0.692975
0,70,216 mila
0.760326
Correlazione
0.733247
0.738506
0.779844
0.638203
0.692964
0.702147
0.760308
Spearman
0.750498
0.528649
0.773012
0.576422
0.725262
0.742434
0.757063
simbolo italico mostra i valori più alti CPCC per la versione media per l'algoritmo AGNES con euclidea e Minkowski distanza metrica
La tabella  1 mostra che agglomerativo clustering gerarchico con la versione media raggiunge il valore più alto CPCC per tutti distanza metrica rispetto alle altre versioni. Inoltre, possiamo vedere che euclidea e Minkowski distanza metrica ha il più alto e il medesimo valore CPCC perché, per p = 2, la distanza diventa Minkowski distanza euclidea. Quindi, possiamo scegliere uno qualsiasi di essi per eseguire il clustering su nostri dati orari di incidenti stradali di serie temporali.

risultato Clustering

CPCC ci fornisce per eseguire con il clustering gerarchico agglomerativo con la versione media con distanza euclidea come distanza metrica. Abbiamo poi applicato un algoritmo di clustering gerarchico agglomerativo sul nostro oraria serie temporali di dati di 26 distretti del Gujarat. Il dendrogramma ottenuto come risultato del processo di clustering è mostrato in Fig.  1 . La figura  2 illustra il numero di cluster ottenuti e il loro legame con agglomerativo clustering gerarchico. Il nome dei distretti e il loro gruppo id è indicato nella tabella  2 .
https://static-content.springer.com/image/art%3A10.1186%2Fs40537-016-0046-3/MediaObjects/40537_2016_46_Fig1_HTML.gif
Figura. 1
Dendrogramma ottenuto dopo l'applicazione di clustering gerarchico
https://static-content.springer.com/image/art%3A10.1186%2Fs40537-016-0046-3/MediaObjects/40537_2016_46_Fig2_HTML.gif
Figura. 2
Dendrogramma che mostra il numero di cluster e il loro collegamento
Tabella 2
Numero di cluster e distretti associati
Id cluster
Nome dei distretti
1
Ahmedabad, Kutch, Surat
2
Amreli, Anand, Bharuch, Bhavnagar, Gandhinagar, Junagadh, Kheda,
Mahesana, Patan, Rajkot, Surendranagar, Vadodara
3
Banaskantha, Dahod, Narmada, PanchMahals, Sabarkantha, Tapi
4
Jamnagar, Porbandar
5
Navsari, Valsad
6
il Dangs

Discussione

Il cluster 1 è composto da 3 distretti, cluster2 è costituito da 12 distretti, cluster3 si compone di 6 distretti, cluster4 e cluster5 sia composto da 2 distretti e cluster6 si compone di solo 1 distretto di Gujarat, come indicato nella Tabella  2 . La distribuzione oraria degli incidenti stradali in questo distretto è mostrato nelle Figg.  3 e 4 . Si può notare dalle figg.  3 a-c e 4 a-c che tutti i distretti di ogni cluster possono avere un diverso numero di incidenti ma hanno simile andamento orario di incidenti stradali. Questa tendenza è anche seguendo il modello simile nel corso degli anni. Il modello più interessante che si trova in ogni cluster è che in ogni gruppo e per ogni distretto il picco più alto che rappresenta l'intervallo di tempo di 20:00-22:00 e / o 22:00-12:00 In questa durata il maggior numero di incidenti stradali sono segnalati e questi conteggi degli incidenti sono in aumento ogni anno, che è una delle principali preoccupazioni. L'ultima cluster6 che contiene un solo distretto ha una leggera variazione di orario conteggio incidente stradale per tutti gli anni ma conserva ancora il picco a 20:00-22:00 per incidenti stradali conteggi.
https://static-content.springer.com/image/art%3A10.1186%2Fs40537-016-0046-3/MediaObjects/40537_2016_46_Fig3_HTML.gif
Figura. 3
una distribuzione oraria degli incidenti stradali in cluster 1. b oraria distribuzione di incidenti stradali nel gruppo 2. coraria distribuzione di incidenti stradali nel gruppo 3
https://static-content.springer.com/image/art%3A10.1186%2Fs40537-016-0046-3/MediaObjects/40537_2016_46_Fig4_HTML.gif
Figura. 4
una distribuzione oraria degli incidenti stradali nel gruppo 4. b oraria distribuzione di incidenti stradali nel gruppo 5. coraria distribuzione di incidenti stradali nel gruppo 6
Quindi, la nostra tecnica di incidente stradale analisi conteggio oraria dimostra che utilizzando il nostro approccio siamo in grado di ottenere cluster di buona qualità che consiste in distretti con simile modello di incidenti stradali in un gruppo o cluster.

Conclusioni e lavoro futuro

Questo articolo presenta un approccio che si avvale di tecniche di clustering di data mining per cluster conta orarie di incidenti stradali di 26 distretti di Gujrat per 5 anni periodo che costituisce un insieme di dati di serie temporali. Prima dell'analisi nostro approccio utilizza CPCC per trovare la migliore metrica distanza che può essere utilizzato per raggruppare i nostri dati utilizzando agglomerativo clustering gerarchico. La distanza euclidea e Minkowski distanza (per p = 2) è risultato essere il migliore distanza adeguata metrica per l'analisi dei cluster di dati di serie temporali 26. Il raggruppamento divide i 26 distretti in 6 gruppi. In ogni cluster, i distretti con simile modello incidente degli incidenti stradali sono raggruppati. Il risultato dimostra che il momento più pericoloso per incidente stradale è l'20:00-12:00 in quasi tutti i gruppi tranne cluster6 che consiste di solo 1 quartiere che ha un po 'diversa distribuzione degli incidenti nel corso degli anni. I risultati mostrano semplicemente che l'approccio proposto è in grado di trovare buoni cluster. Il futuro sarà opera consiste in un'analisi dettagliata di questi cluster, con l'obiettivo di identificare le varie posizioni e fattori alla base degli incidenti stradali che si sono verificati durante 20:00-22:00.

dichiarazioni

Contributi degli autori

DT ha contribuito per l'idea di fondo e ha contribuito a redigere il manoscritto. DT ha svolto un ruolo fondamentale di guida e la supervisione in tutto, dalla concezione iniziale alla presentazione finale di questo manoscritto. SK sviluppato e implementato l'idea, ha progettato gli esperimenti, ha analizzato i risultati e ha scritto il manoscritto.Entrambi gli autori hanno letto e approvato il manoscritto finale.

Ringraziamenti

Gli autori riconoscono l'fortuna GVK-EMRI di fornire i dati per la nostra ricerca.

Interessi conflittuali

Gli autori dichiarano di non avere interessi in competizione.
Open AccessQuesto articolo è distribuito sotto i termini della Creative Commons Attribution 4.0 License International (http://creativecommons.org/licenses/by/4.0/ ), che permette l'uso senza restrizioni, la distribuzione e la riproduzione con qualsiasi mezzo, a condizione che si dà adeguato credito per l'autore originale (s) e la sorgente, fornire un collegamento alla licenza creative Commons, e indicare se sono state apportate modifiche.

Riferimenti

  1. Miaou SP, Lum H. Modeling incidenti stradali e autostradali relazioni disegno geometrico. Accid Anal Prec. 1993; 25 (6):. 689-709Vedi l'articolo Google Scholar
  2. Miaou SP. Il rapporto tra incidenti di camion e disegno geometrico della strada di sezioni-poisson contro regressioni binomiale negativa. Accid Anal Prec. 1994; 26 (4):. 471-82Leggi articolo Google Scholar
  3. Ma J, K. Kockelman Crash frequenza e la gravità di modellazione utilizzando i dati in cluster da stato di Washington. In: IEEE Conferenza sistemi di trasporto intelligenti. Toronto; Del 2006.
  4. Depaire B, Wets G, Vanhoof K. Traffico incidente segmentazione mediante il clustering di classe latente. Accid Anal Prec.2008; 40 (4):. 1257-1266Vedi l'articolo Google Scholar
  5. Savolainen P, Mannering F, Signore D, Quddus M. L'analisi statistica dei autostradali gravità crash-ferita: una revisione e valutazione delle alternative metodologiche. Accid Anal Prec. 2011; 43 (5):. 1666-1676Vedi l'articolo Google Scholar
  6. Chang LY, Chen WC. Il data mining di modelli basati albero di analizzare superstrada di frequenza degli infortuni. J Saf Res. 2005; 36 (4):. 365-75MathSciNet Vedi l'articolo Google Scholar
  7. Abellan J, Lopez G, Ona J. Analyis del traffico gravità dell'incidente utilizzando le regole decisionali tramite alberi di decisione. Expert Syst Appl. 2013; 40 (15):. 6047-54Leggi articolo Google Scholar
  8. Kashani T, Mohaymany AS, Rajbari A. Un approccio di data mining per identificare i fattori chiave della gravità delle lesioni di traffico. Promet-Traffic trasp. 2011; 23 (1): 11-7.Google Scholar
  9. Kumar S, Toshniwal D. Un quadro di data mining per analizzare i dati sugli incidenti stradali. J Big Data. 2015; 2 (1): 1-26.Google Scholar
  10. Kumar S, Toshniwal D. Un approccio di data mining per caratterizzare luoghi degli incidenti stradali. J Mod trasp. 2016; 24 (1):. 62-72Vedi l'articolo Google Scholar
  11. Karlaftis M, considerazioni Tarko A. eterogeneità nella modellazione incidente. Accid Anal Prec. 1998; 30 (4):. 425-33Leggi articolo Google Scholar
  12. Oña JD, López G, Mujalli R, Calvo FJ. Analisi di incidenti stradali sulle autostrade rurali che utilizzano latente di clustering di classe e reti bayesiane. Accid Anal Prec. 2013; 51 (2013):. 1-10Vedi l'articolo Google Scholar
  13. Zhang X, Jun W, Y Xuecheng, Haiying O, Tingjie L. Un metodo di estrazione romanzo modello per la classificazione di serie storiche. Optim Ing. 2009; 10 (2):. 253-71MathSciNet Leggi articolo MATEMATICA Google Scholar
  14. Sokal RR, Rohlf FJ. Il confronto dei dendrogrammi secondo metodi oggettivi. Taxon. 1962; 11: 33-40.Vedi l'articolo Google Scholar
  15. Ratanamahatana CA, Lin J, Gunopulos D, Keogh E, Vlachos M, dati di serie temporali Das G. Mining. Data mining e knowledge discovery manuale. Berlin: Springer; 2010. p. 1049-1077.Google Scholar
  16. Liao TW. Clustering di serie temporali di dati-un sondaggio. Modello ti riconosciuti. 2005; 38 (1):. 1857-1874Leggi articolo MATEMATICA Google Scholar
  17. Cyrus DC. I moderni metodi matematici per fisici e ingegneri. Cambridge: Cambridge University Press; 2000.Google Scholar
  18. James MA, Panos MP, Mauricio GC, redattori. Manuale di enormi set di dati. Berlin: Springer; 2002.MATEMATICA Google Scholar
  19. Gábor JS, Maria LR, Nail KB. Misura e controllo della dipendenza da correlazione delle distanze. Ann. Statist. 2007; 35 (6):. 2313-817MathSciNet Leggi articolo MATEMATICA Google Scholar
  20. Tan PN, Steinbach M, Kumar V. Introduzione al data mining. Boston: Pearson Addison-Wesley; 2006.Google Scholar
  21. Kumar S, Toshniwal D. Analisi dei dati sugli incidenti stradali che utilizzano associazione regola mineraria, Conferenza internazionale sulla computing, comunicazione e sicurezza. Mauritius: ICCCS-2015; 2015. doi: 10,1109 / CCCS.2015.7374211 .
  22. Kumar S, Toshniwal D. Un quadro nuovo per analizzare i dati di serie temporali di incidenti stradali. J Big Data. 2016; 3 (1):. 1-11Vedi l'articolo Google Scholar

Diritto d'autore

© L'autore (s) 2016