第120期 大數(shù)據(jù)應(yīng)用┃用聚類+分類來(lái)輔助診斷路口問(wèn)題

優(yōu)控黑板報(bào)

關(guān)鍵詞:大數(shù)據(jù)應(yīng)該 路口匹配系統(tǒng) 聚類分析 分類判定

振業(yè)優(yōu)控研究院大數(shù)據(jù)研究小組的小伙伴們有新的嘗試了?。ù颂帒?yīng)有掌聲)撒花

醫(yī)生平時(shí)給病人看病的時(shí)候,并不是對(duì)每個(gè)病例都從零開始思考新的治療方法。當(dāng)醫(yī)生看到一個(gè)病人時(shí),會(huì)根據(jù)這個(gè)病人的幾個(gè)重要的癥狀,類比以前看過(guò)的病例的特點(diǎn),診斷出病人得了什么疾病,然后在以前類似病例的治療方法的基礎(chǔ)上,給出這個(gè)病人的治療方案。

其實(shí)在醫(yī)生的大腦里面,對(duì)大量歷史病例按既定特征進(jìn)行歸類,就是用一種“聚類分析”的思想。當(dāng)診斷一個(gè)新的病例歸屬到哪一類相似病例的時(shí)候,用的正是“分類判定”的技術(shù)。

類比醫(yī)生看病

而我們?cè)诟鞯匦盘?hào)優(yōu)化項(xiàng)目的實(shí)戰(zhàn)中,技術(shù)人員經(jīng)常會(huì)發(fā)現(xiàn)當(dāng)前項(xiàng)目與之前某個(gè)路口的情況非常類似,這時(shí)候技術(shù)人員就會(huì)想把這個(gè)相似的案例找出來(lái)比對(duì)。但是問(wèn)題來(lái)了,案例要不就是時(shí)間久遠(yuǎn),要不就是數(shù)據(jù)管理不善,根本找不到相關(guān)的記錄了,如果這個(gè)時(shí)候有個(gè)系統(tǒng)能夠自動(dòng)推薦相似的案例以供參考,那該多好!

而振業(yè)優(yōu)控的交通信號(hào)優(yōu)化服務(wù)團(tuán)隊(duì)有多年的項(xiàng)目積累,掌握了超過(guò)3600個(gè)路口的基礎(chǔ)數(shù)據(jù),為什么不從這些數(shù)據(jù)挖掘出有價(jià)值的信息?(ps:我們平時(shí)用自主研發(fā)的臺(tái)賬系統(tǒng)來(lái)收集和整理相關(guān)數(shù)據(jù))。

振業(yè)優(yōu)控研究院大數(shù)據(jù)研究小組深入分析了已掌握的路口基礎(chǔ)數(shù)據(jù),利用聚類的方法,建立了路口匹配與推薦系統(tǒng)。該系統(tǒng)會(huì)根據(jù)輸入的路口基本信息,自動(dòng)分類匹配,從路口庫(kù)里查找與之相似的路口推薦給交通工程師,這樣交通工程師最后給出的優(yōu)化方案會(huì)更科學(xué),也更有底氣。

圖1 路口匹配的技術(shù)流程

圖1 技術(shù)流程圖

第一步 路口數(shù)據(jù)結(jié)構(gòu)化和清洗補(bǔ)全:將路口臺(tái)賬非結(jié)化數(shù)據(jù)進(jìn)行結(jié)構(gòu)化存儲(chǔ),下圖是部分路口臺(tái)賬數(shù)據(jù)圖形表達(dá)(VISIO圖),數(shù)據(jù)準(zhǔn)備的工作就是把這些圖像化的數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù),以數(shù)據(jù)表來(lái)組織,存放到數(shù)據(jù)庫(kù)中。通常通過(guò)各種檢測(cè)手段得到的數(shù)據(jù)多少會(huì)存在錯(cuò)檢、漏檢、無(wú)數(shù)據(jù)的情況,所以在使得前還要對(duì)存在問(wèn)題的數(shù)據(jù)進(jìn)行清洗,對(duì)不完整的數(shù)據(jù)進(jìn)行補(bǔ)全。

圖2 路口臺(tái)賬數(shù)據(jù)(非結(jié)構(gòu)化)圖2 路口臺(tái)賬數(shù)據(jù)(非結(jié)構(gòu)化)

圖3 結(jié)構(gòu)化的路口臺(tái)賬數(shù)據(jù)表(部分)

圖3 結(jié)構(gòu)化的路口臺(tái)賬數(shù)據(jù)表(部分)

第二步 路口特征提?。涸诮Y(jié)構(gòu)化的數(shù)據(jù)中,挑選可以反映路口特征的數(shù)據(jù),整理成路口特征數(shù)據(jù)表。反映路口特征的數(shù)據(jù)有:進(jìn)口數(shù)量、車道轉(zhuǎn)向及數(shù)量、渠化情況、行人過(guò)街、燈組、控制方案、流量水平等。

圖4 路口特征表結(jié)構(gòu)(部分字段)圖4 路口特征表結(jié)構(gòu)(部分字段)

第三步,也是最重要的一步。聚類分析:通過(guò)聚類算法將路口劃分不同的類型。
首先通過(guò)粗聚類的方法,剔除較為特殊的路口(畸形路口),將剩余的路口歸為常規(guī)路口。在常規(guī)路口中,設(shè)計(jì)精細(xì)化的聚類算法,進(jìn)行類型劃分(下圖為聚類結(jié)果經(jīng)過(guò)MDS降維后在二維空間的投射)可以看出分類效果較好?;谏鲜龅木垲惤Y(jié)果,再在每一個(gè)類別的基礎(chǔ)上再進(jìn)行聚類,進(jìn)一步細(xì)化聚類結(jié)果。

圖5 路口聚類結(jié)果圖5 路口聚類結(jié)果

第四步 形成路口庫(kù):整理聚類后的數(shù)據(jù),形成路口庫(kù)。

第五步 新路口分類
路口匹配系統(tǒng)以路口的臺(tái)帳數(shù)據(jù)作為輸入,系統(tǒng)自動(dòng)將臺(tái)賬數(shù)據(jù)進(jìn)行結(jié)構(gòu)化存儲(chǔ),并提取相應(yīng)的特征數(shù)據(jù)。采用集成學(xué)習(xí)的分類算法(boosting),與經(jīng)過(guò)聚類形成的路口庫(kù)進(jìn)行匹配,找出與之相似的路口,將路口相關(guān)的臺(tái)賬、方案、優(yōu)化記錄、優(yōu)化方法等信息推薦給用戶。

圖6 路口匹配與推薦系統(tǒng)實(shí)施
圖6 路口匹配系統(tǒng)實(shí)施

舉個(gè)栗子,下圖是是待匹配路口的臺(tái)賬(VISIO圖)。經(jīng)過(guò)系統(tǒng)運(yùn)算后,找到與之最為相似的三個(gè)路口(圖8-10)。由路口VISIO圖可以觀察到,將匹配結(jié)果第一位的廣海大道-同福路交叉口順時(shí)針旋轉(zhuǎn)90度,其幾何特征與待匹配路口基本重合,匹配效果較好。結(jié)果二和結(jié)果三也有較高的相似度。

圖7 待匹配路口圖7 待匹配路口

圖8 匹配結(jié)果一圖8 匹配結(jié)果一

圖9 匹配結(jié)果二圖9 匹配結(jié)果二

圖10 匹配結(jié)果三圖10 匹配結(jié)果三

路口匹配與推薦系統(tǒng)是我們團(tuán)隊(duì)對(duì)已掌握的路口數(shù)據(jù)的綜合利用案例之一,是大數(shù)據(jù)技術(shù)的一個(gè)小應(yīng)用,該應(yīng)用還在進(jìn)一步的完善當(dāng)中。為了保障系統(tǒng)能夠正常運(yùn)行,除了定期更新聚類及分類算法,不斷完善相關(guān)的程序之外,我們還對(duì)數(shù)據(jù)的采集、整理、存儲(chǔ)等階段設(shè)計(jì)了規(guī)范化的操作流程,以保證數(shù)據(jù)獲取的可持續(xù)性、數(shù)據(jù)的多樣性和數(shù)據(jù)的質(zhì)量。

大數(shù)據(jù)的真正含義不在“大”,而在“有用”,把數(shù)據(jù)變得有價(jià)值一直是我們團(tuán)隊(duì)努力的方向。