[0043] 下面结合附图对本发明作进一步说明。
[0044] 本发明的基于OD数据感知城市动态结构演化规律的可视分析方法,包括如下步骤:
[0045] 步骤1:收集OD数据,将它们存储在数据库中。
[0046] 步骤2:对位置进行聚类,对轨迹按位置聚类和小时聚合。
[0047] 步骤3:按小时构建位置聚类网络序列,表征每小时内各个聚类间的流量关系。
[0048] 步骤4:基于位置聚类网络序列,定义LDA模型,训练得到一个主题模型,并对主题基于重要程度排序。
[0049] 步骤5:设计主题-时间视图,可视化不同主题在每个位置网络中的概率分布,展示不同主题随着时间的演化特征。
[0050] 步骤6:设计边关联视图,直观展示重要区域的空间分布和它们之间的流量关系。
[0051] 步骤7:设计边流量时间分布视图,展示边关联视图中每条弧线在不同时间步下出现的概率。
[0052] 所述步骤1包括:
[0053] 获取OD数据集,将它们存储在轨迹记录表中。一条轨迹记录trajRec表示如下:
[0054] trajRec=[startLocLong,startLocLat,startTime,endLocLong,endLocLat,endTime]
[0055] 其中startLocLong和startLocLat为出发地点的经度和纬度,startTime为出发时间,endLocLong和endtLocLat为到达地点的经度和纬度,endTime为到达时间。
[0056] 所述步骤2包括:
[0057] 步骤2.1:对所有位置进行聚类。假设locSet={locLongi,locLati}(1≤i≤n)为包含所有出发地点和到达地点的位置集合,一共有n个位置点。locLongi和locLati为第i个位置点的经度和纬度。第i个位置点和第j个位置点之间的距离定义为:使用k-means算法根据距离定义将地理相
邻的位置聚合在一起,获取得到位置聚类集合
[0058] cluLocSet={cluLoci}(1≤i≤k)。其中k是聚类个数,一个位置聚类cluLoci中包含了多个相邻的位置点。
[0059] 步骤2.2:将轨迹按位置聚类和小时聚合。基于trajRec,以小时为单位统计某两个聚类间在单位时间内的人流量,并将它们存储下来加速后续计算。聚合后的一条记录trajAggrRec表示为:
[0060] trajAggrRec=[startDate,startHour,startCluLoc,endCluLoc,flowNum][0061] 其中startDate表示出发日期,startHour表示出发小时,可以从starttTme中提取得到。startCluLoc和endCluLoc表示出发和到达的位置聚类的ID,flowNum表示在某日(startDate)某小时(startHour)内,从startCluLoc内出发到达endCluLoc的人流量。
[0062] 所述步骤3包括:
[0063] 按小时构建位置聚类网络序列,表征每小时内各个聚类间的流量关系。假设Gτ=(cluLocSet,Eτ)表示在时间步τ下的位置聚类网络,可以用一个图结构表示。其中位置聚类集合cluLocSet被看作是顶点集合,Eτ为边集合。eijτ∈Eτ表示在时间步τ内从cluLoci出发到达cluLocj的人流量,具体的值可以从trajAggrRec中查询得到。然后按小时构建位置聚类网络序列NS={G1,G2,...,GT}。T为所有时间步的总数,由待分析的时间段内的日期数d决定,T=24×d。
[0064] 所述步骤4包括:
[0065] 步骤4.1:基于位置聚类网络序列,定义LDA模型。LDA模型包含3层:文档、单词和主题。一篇文档是由一组单词构成的集合。所有的文档集构成了一个语料库。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。为了能够分析OD数据集的时空演化模式,如下定义LDA模型中的3层。将每个时间步下的位置聚类网络Gτ看作是一篇文档,从而位置聚类网络序列NS={G1,G2,...,GT}构成了一个语料库。将边集合Eτ看作是一篇文档Gτ中的单词集合,一条边的权重eijτ对应于一个单词在一篇文档中出现的频率。主题为网络序列中的结构信息,隐含了城市动态相关的、重要的语义信息。
[0066] 步骤4.2:通过将位置聚类网络定义为文档,将网络中的边关联定义为单词,训练得到一个主题模型,推理OD数据集中隐含的K个主题。采用EM算法训练得到模型参数,采用Gibbs采样计算得到2个概率分布:网络-主题概率分布和主题-边关联概率分布。对于网络-主题概率分布来说,每一个网络代表了一些主题所构成的一个概率分布。用θτ表示网络Gτ的主题概率分布,θτ,k表示主题k在Gτ网络中的概率。对于主题-边关联概率分布来说,由于每一个主题又代表了很多边所构成的一个概率分布,一条边在不同的主题上具有不同的概率。对于主题k,计算得到的边关联概率由 表示。在一个主题中,具有高概率的边被认为更能代表那个主题。
[0067] 步骤4.3:对主题基于重要程度排序。由于每个主题在不同的位置聚类网络中具有不同的概率,一个主题在所有网络中的概率和表征了这个主题的重要程度。对于第k个主题,计算 表示第k个主题在所有网络中的概率和。sumProk的值越大,表示对应的主题越重要。在计算得到所有主题的sumProk后,基于此对主题进行重要程度排序。
[0068] 所述步骤5包括:
[0069] 设计主题-时间视图,展示不同主题随着时间的演化特征。x轴对应于分析时间段内的每个小时,具有不同属性的日期用不同的颜色表示。红色表示节假日,蓝色表示周末,黑色表示工作日。y轴代表主题。每个主题采用一种颜色机制映射。在右上角显示颜色图例。颜色越深,表示概率值越大。图中的每个小矩形表示对于一个主题k在某个位置聚类网络Gτ中的概率值,由θτ,k所提供。当鼠标移动到一个小矩形上时,显示相关的日期、小时和概率值。用户可以改变分析的时间段在更细的时间粒度上观察数据。由于在步骤4.3中对主题已经进行了排序,在主题-时间视图中主题的重要程度显示得更为清晰。主题1表示最重要的,主题2为第二重要的,以此类推。通过观察不同主题出现的时间段,为主题赋予相应的语义标签。
[0070] 此外,在某些情况下,2个主题可能包含相似的边关联概率分布,将相似的主题合并更易于进行模式归纳。重要度很低的主题也对分析结果没有用处。在主题-时间视图中可以进行交互式的主题优化,包括主题合并和删除。对于主题合并来说,用户可以在文本框中输入两个主题ID来合并主题。若要合并主题i和主题j,则合并后的主题z的网络-主题概率为:θτ,z=θτ,i+θτ,j。对主题-边关联概率分布也进行合并,如果一条边同时出现在2个主题中,则将两个概率值相加。否则,直接将这条边和相应的概率值放入新的主题-边关联概率分布中。对于主题删除来说,用户可以通过输入多个用英文逗号连接的主题ID来删除多个主题,相关的主题直接从概率分布中移除。在进行主题合并和删除操作后,可以获取优化后的主题模型结果。
[0071] 所述步骤6包括:
[0072] 由于每个主题可以由一组具有不同概率的单词表示,反应了不同时间步下重要的移动路线,因此设计一个边关联视图,展示对于每个主题来说重要区域的空间分布和它们之间的流量关系。当点击主题-时间视图中纵坐标上的一个标签时,显示相应的边关联视图。对于第k个主题,从位置聚类cluLoci出发到达cluLocj的一条边的重要程度impijk可以计算为:
[0073]
[0074] 其中 表示在 中从位置聚类cluLoci出发到达cluLocj的这条边的概率值。
[0075] impijk为流量大小乘以边概率值的概率总和。
[0076] 在边关联视图中,一个蓝色的点代表一个位置聚类,根据位置聚类的中心在地图上绘制。带有箭头的弧线表示位置聚类间的流动强度。由于位置聚类可能具有内部流量,也就是说人们从某个聚类内的位置点出发,到达的位置点也在该聚类内,在蓝色的点外圈加上一个圆环来表示内部流量。对于弧线来说,边的重要程序由边的颜色和粗细双编码。颜色采用“紫色-橙色-黄色-绿色”的渐变色编码。一条弧线越粗、颜色越紫代表流量越大。对于外圈圆环来说,只使用渐变色来编码内部流量的重要程度。为了更清晰地展示重要的边,对弧线根据它们的粗细进行排序。在地图上绘制弧线时,首先绘制较细的、不重要的弧线,将重要的、较粗的弧线绘制在最顶层。用户还可以根据弧线的重要程度对它们进行过滤,通过输入一个阈值,对于impijk小于阈值的弧线不予以显示。
[0077] 所述步骤7包括:
[0078] 当点击边关联视图中的某条弧线时,动态显示相应的边流量时间分布视图。其中横坐标代表小时,纵坐标代表某小时内的流量概率值。由于点击某条弧线时,已经得到了该弧线对应的出发位置聚类ID(i)和到达位置聚类ID(j),因此每小时内的流量概率值为[0079] 图3给出了基于纽约市2016年12月的公共自行车数据,处理得到的主题-时间视图。从图中可以发现城市动态的周期性演化规律。主题1出现在工作日的20:00-3:00和周末的10:00-3:00,对应于休闲时间。主题2出现在工作日的10:00-15:00和周末的8:00-19:00,对应于日间。在主题1和2主题之间有时间过渡,也就是说,在周末的10:00-19:00期间主题1和主题2同时存在。主题3主要出现在工作日的4:00-7:00,对应于晨间。主题4出现在工作日的17:00-19:00,对应于晚高峰。主题6出现在工作日的7:00-8:00,对应于早高峰。主题7出现在工作日的12:00-17:00。主题8出现在工作日的9:00-11:00。
[0080] 图4a-4d给出了基于纽约市公共自行车数据,部分主题对应的边关联视图。在早高峰(图4a)和晚高峰(图4b)期间,人群流动遍布于曼哈顿的各个街区中。右侧放大的地图中过滤掉了不重要的弧线,从中可以看出,早晚高峰期间主要的流动方向是相反的。图4c展示了人们在休闲时间的活动情况。热门的线路集中于东村(EV)、格林威治村(GV)、小意大利(LI)和下东区(LES)。这些地点是纽约知名的夜生活娱乐区域。图4d展示了晨间活动情况,主要发生在工作日的4:00-7:00,流量从周边地区前往中城。右侧的边流量时间分布视图给出了2条弧线的结果,能更进一步地观察流量发生的主要时间。从图中可以得知,这些流量主要发生于早晨的6点至7点。由于中城包含很多世界知名的办公大楼及大型车站,推测这些流量跟人们早起上班有关。