首页 > 专利 > 杭州电子科技大学 > 一种公共自行车系统租赁点功能聚类方法专利详情

一种公共自行车系统租赁点功能聚类方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2017-01-09
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2017-07-25
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-06-01
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2037-01-09
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201710013892.2 申请日 2017-01-09
公开/公告号 CN106910103B 公开/公告日 2021-06-01
授权日 2021-06-01 预估到期日 2037-01-09
申请年 2017年 公开/公告年 2021年
缴费截止日
分类号 G06Q30/06G06Q50/30G06K9/62G06F16/35 主分类号 G06Q30/06
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 0
权利要求数量 1 非专利引证数量 1
引用专利数量 1 被引证专利数量 0
非专利引证 1、2013.09.25KR 20130121408 A,2013.11.06KR 20120107703 A,2012.10.04CN 104318081 A,2015.01.28董红召.基于关联规则的公共自行车调度区域聚类划分《.科技通报》.2013,第29卷(第9期),周素静.基于聚类分析法的公共自行车服务系统研究《.郑州铁路职业技术学院学报》.2015,;
引用专利 JP5299828B 被引证专利
专利权维持 5 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 王兰迪、申兴发、姚霞文 第一发明人 王兰迪
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 3
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
杜军
摘要
本发明公开了一种公共自行车系统租赁点功能聚类方法。本发明包含以下步骤:步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析。步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”。步骤3、使用LDA算法和K‑means算法对租赁点进行租赁点功能识别。步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能。本发明的积极效果是:为公共自行车未来的规划提出依据;指导用户使用公共自行车;可以指导商业和广告的建立,具有较好的行业应用前景。
  • 摘要附图
    一种公共自行车系统租赁点功能聚类方法
  • 说明书附图:图1
    一种公共自行车系统租赁点功能聚类方法
  • 说明书附图:图2
    一种公共自行车系统租赁点功能聚类方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2021-06-01 授权
2 2017-07-25 实质审查的生效 IPC(主分类): G06Q 30/06 专利申请号: 201710013892.2 申请日: 2017.01.09
3 2017-06-30 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种公共自行车系统租赁点功能聚类方法,其特征在于包含以下步骤:
步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析;
步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”;
步骤3、使用LDA模型和K‑means算法对租赁点进行租赁点功能识别;
步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能;
步骤2所述的将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”,具体操作如下:
2‑
1.定义每个乘客的一次出行产生的记录为TS,TS=(TS.SO,TS.tO,TS.SD,TS.tD),其中,TS.SO表示借车站点,TS.SD表示还车站点,TS.tO表示借车时刻,TS.tD表示还车时刻;
2‑
2.由于用户能够在任意租赁点租借/归还自行车,因此设置两种客流模式:租借模式、归还模式;定义MO为租借模式:MO=(TS.SO,TS.SD,TS.tO);定义MD为归还模式:MD=(TS.SO,TS.SD,TS.tD);
2‑
3.对每个租赁点设置两种使用模式,分别为租借模式和归还模式,分别定义为XSO、XSD;根据用户的客流模式得出所有租赁点s(1…S)的使用模式向量:
XSO=(CO1,CO2,…,COs,…,COS);
XSD=(CD1,CD2,…,CDs,…,CDS);
其中,COs为在编号为s的租赁点发生租借行为的所有记录,COs=||{MO={x,y,z)|x=s,y=i,z=k||,COs它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为s的租赁点借车,到编号为(1··i··S)的租赁点还车发生的记录统计量;同理,CDs为在编号为s的租赁点发生还车行为的所有记录,CDs=||{MD={x,y,z}|x=i,y=s,z=k||,它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为(1··i··S)的租赁点借车,到编号为s的租赁点还车发生的记录统计量;
2‑
4.将每一个租赁点作为一个文档,租赁点对应的区域功能视作文档的主题,租赁点的使用模式相当于组成每篇文档的单词;
公共自行车系统一共有S个租赁点,设研究的文档个数也为S篇;根据租赁点的使用模式向量XSO和XSD,得出任意一个租赁点的组成内容为Cs=(WOs,WDs);以编号为i的租赁点为例来说明一篇文档的单词是如何计算的,编号为i的租赁点的定义单词为WOi=Coi,WDi=CDi;在时刻t时,从编号为i的租赁点借车去到租赁点编号为s(1,2,…,..,S)的租赁点还车的记录有M条,表示租赁点i有M个WOi=(i,s,t)这样的单词;在时刻t时,从编号为s(1,2,…,..,S)的租赁点借车去到租赁点编号为i的租赁点还车的记录有M条,表示租赁点i有M个WDi=(i,s,t)这样的单词;
步骤3所述的使用LDA算法和K‑means算法对租赁点进行租赁点功能识别具体如下:
3‑
1.根据步骤2得出的每篇“文档”的“单词”,对公共自行车系统租赁点使用LDA算法并得到每个租赁点的主题分布,将得到文档在每一主题上的概率分布作为文档的特征值;
所述对公共自行车系统租赁点使用LDA算法从而得到每个租赁点的主题分布的过程如下:
3‑1‑
1.对于所有的主题k∈[1,K]:生成
3‑1‑
2.对于所有的文档s∈[1,S]:
生成文档‑主题分布
生成文档的长度Ns,Ns~Poiss(ξ);
3‑1‑
3.对于任意一篇文档的单词n∈[1,Ns]:
生成单词所对应的主题
生成该主题对应的单词
其中S为公共自行车系统租赁点的总数;K为设置的租赁点功能数即主题数;Ns为编号为s的租赁点中单词的总数; 代表第s个租赁点的主题分布;Zs,n生成编号为s的租赁点的第n个单词的租赁点功能; 代表编号为k的主题之上的词分布; 代表每个租赁点的主题分布的先验分布Dirichlet分布的参数; 代表每个主题的词分布的先验分布Dirichlet分布的参数;
所述的将得到文档在每一主题上的概率分布作为文档的特征值,具体的使用吉布斯采样来估计LDA分布,得到每个租赁点的各个词被指定的主题编号:.tassign;每个租赁点的主题概率分布Θ:.theta;每个主题下的词概率分布φ:.phi;每个主题下词概率分布φ排序从高到低的top n特征词:.twords;将得到的文档在每个主题上的概率分布φ作为文档的特征值;
3‑
2.采用k‑means聚类算法对不同的文档进行功能聚类,具体实现步骤如下:
n
3‑2‑
1.随机选取K个聚类质心点为μ1,μ2,...,μk∈R;
(i)
3‑2‑
2.对于每一个文档x ,计算该文档应该属于的类
(i) (i) 2
C =arg minj||x ‑μj|| .
对于每一个类j,重新计算该类的质心点:
3‑2‑
3.重复步骤3‑2‑2,直到该类的质心点收敛;
步骤4所述的对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能,具体的:每个聚类结果结合其租赁点的地理位置信息和其周围分布的POI数据,以及城市居民租借自行车的社会活动和社会时间定义该租赁点的功能,租赁点的功能包括:工作、娱乐、就餐、居住和旅游;具体的实现步骤如下:
4‑
1.根据公共自行车系统的使用历史记录分析城市居民租借自行车的社会活动和社会时间,具体的:功能为工作和居住的租赁点注册用户的使用频次要高于非注册用户,两类功能的租赁点在一天使用特征上呈现“双峰”状态,并且这两类的租赁点使用需求呈现相反状态:早高峰较多用户从居住功能的租赁点借车去工作功能的租赁点还车,晚高峰则相反;
旅游功能的租赁点则呈现“单峰”状态,并且非注册用户的使用频次要高于注册用户;居住功能的租赁点在早高峰时,较易出现“用户无法借车”情况,而晚高峰则出现“用户无法还车”情况,而工作功能的租赁点则呈现相反状态;
4‑
2.分析聚类结果中的租赁点的地理位置信息和其周围POI分布,具体如下:
4‑2‑
1.租赁点的使用特征受到其空间位置影响,位于城市中心地带的租赁点集群的使用频次明显较多,这几个集群租赁点是将所有租赁点联系起来的核心租赁点;对于一个城市来说:商业区、住宅区和文化区构成了城市的必要组成部分,那么位于中心地带的租赁点则主要完成城市中工作、居住和娱乐功能;
4‑2‑
2.本公共租赁点一共有S个,计算得出任意一个租赁点(1…i…S)所具有的POI分布统计,对于任意租赁点Si,我们能够求出POI分布向量POI‑Si(P1,P2,…Pp,…Pn),Pp是租赁点编号为i的第p类POI的TF‑IDF值:
其中,np为第p类POI在租赁点i的数量,Ni为租赁点i总共拥有的POI数量,S为所有的租赁点总个数,||Si|the  p‑thPOIeSi||为第p类POI出现在不同租赁点的数量;
为功能第c类租赁点的覆盖面积,可进一步求出步骤3得出的聚类结果中
不同集群之间的POI分布POI‑Ci(P1,P2,…Pp,…Pn):
说明书

技术领域

[0001] 本发明属于交通规划中公共自行车系统规划领域,尤其涉及一种公共自行车系统租赁点功能聚类方法。

背景技术

[0002] 城区的功能识别是指利用城市运行数据和动态特征,对于城市的各个不同区域按照其在城市中所承担的功能进行识别和标注。它是城市规划的主要组成部分,可以帮助人们了解城市内在的发展规律,开展城市规划,指导城市建设发展。但是,城市功能区域发现这类研究是十分困难的:城市居民活动复杂,城市功能区域并不单一,所以很难准确定义一块区域的具体功能;传统的方法多为用户调研,实地统计,这无疑是非常耗时、耗力;而最近采用的研究对象——城市数据的种类繁多、规模庞大、多粒度、多维度等特征,想要从中发现规律是非常困难的;由于城市功能区域本身不能直接观测,所以很难去验证算法的有效性和正确性。
[0003] 随着公共自行车系统的普及和发展,积累了越来越多的使用数据,公共自行车系统的使用记录数据蕴含着丰富的人群移动信息:不仅蕴含了用户的移动,而且它反应出了用户在不同的时间不同的地点的社会经济活动。租赁点所具有的功能和城市的区域功能具有相似性,都是用户为了满足一定的目的,在空间和时间上进行聚集。开展城市区域功能发现是一项繁重的任务,公共自行车系统的使用用户只是城市中的一小部分居民,通过这些数据去进行城市功能区域发现无疑是不准确的,但是本发明提出了的方法不是去进行城市功能区域发现,而是根据使用数据去对租赁点进行功能聚类,识别租赁点的使用模式,进而以便于系统管理者进行车站平衡调度和新租赁点的部署等。
[0004] 区别于其它文献的公共自行车聚类算法,本发明提出的算法充分考虑到用户的使用模式反应了租赁点的功能特征,从用户积累的使用数据角度对租赁点进行聚类。LDA(Latent Dirichlet Allocation)模型作为一种机器学习技术,可以挖掘出文本中潜在的隐含信息,本发明将每个租赁点作为一个文本,用户在租赁点发生的借/还车行为作为文本的单词,文本的主题作为租赁点所具有的功能。同时,为了进一步得出聚类结果,利用k‑means算法对LDA模型产生的主题分布概率进行聚类。
[0005] 总的说来,现有的公共自行车聚类方法只是利用租赁点的位置属性和单个站点的使用数据进行聚类,但公共自行车系统是为用户服务并且各个租赁点和其它租赁点间具有相关性,应充分利用租赁点之间的联系,采用数据挖掘算法可进一步提高聚类的有效性。结合LDA模型和k‑means算法可以有效解决公共自行车系统租赁点功能聚类问题。

发明内容

[0006] 本发明的目的是针对现有技术的不足,为了充分融合LDA与k‑means的优点,提高公共自行车功能聚类的有效性,本发明提出了一种公共自行车系统租赁点功能聚类方法。
[0007] 本发明解决其技术问题所采的技术方案包含以下步骤:
[0008] 步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析。
[0009] 步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”。
[0010] 步骤3、使用LDA模型和K‑means算法对租赁点进行租赁点功能识别。
[0011] 步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能。
[0012] 步骤2所述的将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”,具体操作如下:
[0013] 2‑1.定义每个乘客的一次出行产生的记录为TS,TS=(TS.SO,TS.tO,TS.SD,TS.tD),其中,TS.SO表示借车站点,TS.SD表示还车站点,TS.tO表示借车时刻,TS.tD表示还车时刻。
[0014] 2‑2.由于用户能够在任意租赁点租借/归还自行车,因此设置两种客流模式:租借模式、归还模式;定义MO为租借模式:MO=(TS.SO,TS.SD,TS.tO);定义MD为归还模式:MD=(TS.SO,TS.SD,TS.tD)。
[0015] 2‑3.对每个租赁点设置两种使用模式,分别为租借模式和归还模式,分别定义为XSO、XSD。根据用户的客流模式得出所有租赁点s(1…S)的使用模式向量:
[0016] XSO=(CO1,CO2,…,COs,…,COS);
[0017] XSD=(CD1,CD2,…,CDs,…,CDS)。
[0018] 其中,COs为在编号为s的租赁点发生租借行为的所有记录,COs=||{MO={x,y,z}|x=s,y=i,z=k||,COs它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为s的租赁点借车,到编号为(1··i··S)的租赁点还车发生的记录统计量;同理,CDs为在编号为s的租赁点发生还车行为的所有记录,CDs=||{MD={x,y,z}|x=i,y=s,z=k||,它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为(1··i··S)的租赁点借车,到编号为s的租赁点还车发生的记录统计量。
[0019] 2‑4.将每一个租赁点作为一个文档,租赁点对应的区域功能视作文档的主题,租赁点的使用模式相当于组成每篇文档的单词。
[0020] 如同每篇文档的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到,租赁点的用户出行模式也可以推导出租赁点所在区域的功能。
[0021] 公共自行车系统一共有S个租赁点,设研究的文档个数也为S篇。根据租赁点的使用模式向量XSO和XSD,得出任意一个租赁点的组成内容为Cs=(WOs,WDs)。以编号为i的租赁点为例来说明一篇文档的单词是如何计算的,编号为i的租赁点的定义单词为WOi=COi,WDi=CDi。在时刻t时,从编号为i的租赁点借车去到租赁点编号为s(1,2,…,..,S)的租赁点还车的记录有M条,表示租赁点i有M个WOi=(i,s,t)这样的单词;在时刻t时,从编号为s(1,2,…,..,S)的租赁点借车去到租赁点编号为i的租赁点还车的记录有M条,表示租赁点i有M个WDi=(i,s,t)这样的单词。
[0022] 步骤3所述的使用LDA算法和K‑means算法对租赁点进行租赁点功能识别具体如下:
[0023] 3‑1.根据步骤2得出的每篇“文档”的“单词”,对公共自行车系统租赁点使用LDA算法并得到每个租赁点的主题分布,将得到文档在每一主题上的概率分布作为文档的特征值;
[0024] 所述对公共自行车系统租赁点使用LDA算法从而得到每个租赁点的主题分布的过程如下:
[0025] 3‑1‑1.对于所有的主题k∈[1,K]:生成
[0026] 3‑1‑2.对于所有的文档s∈[1,S]:
[0027] 生成文档‑主题分布
[0028] 生成文档的长度Ns,Ns~Poiss(ξ);
[0029] 3‑1‑3.对于任意一篇文档的单词n∈[1,Ns]:
[0030] 生成单词所对应的主题
[0031] 生成该主题对应的单词
[0032] 其中S为公共自行车系统租赁点的总数;K为设置的租赁点功能数(主题);Ns为编号为s的租赁点中单词的总数; 代表第s个租赁点的主题分布;Zs,n生成编号为s的租赁点的第n个单词的租赁点功能; 代表编号为k的主题之上的词分布; 代表每个租赁点的主题分布的先验分布Dirichlet分布的参数; 代表每个主题的词分布的先验分布Dirichlet分布的参数; 为通过租赁点的使用模式转化租赁点所具有的单词。
[0033] 所述的将得到文档在每一主题上的概率分布作为文档的特征值,具体的使用吉布斯采样来估计LDA分布,从而求出以下矩阵作为文档的特征值:每个租赁点的各个词被指定的主题编号:.tassign;每个租赁点的主题概率分布Θ:.theta;每个主题下的词概率分布φ:.phi;每个主题下φ概率排序从高到底top n特征词:.twords。
[0034] 3‑2.采用k‑means聚类算法对不同的文档进行功能聚类,具体实现步骤如下:
[0035] 3‑2‑1.随机选取K个聚类质心点为μ1,μ2,...,μk∈Rn;
[0036] 3‑2‑2.对于每一个文档i,计算该文档应该属于的类:
[0037] C(i)=arg minj||x(i)‑μj||2
[0038] 对于每一个类j,重新计算该类的质心点:
[0039]
[0040] 3‑2‑3.重复步骤3‑2‑2,直到该类的质心点收敛。
[0041] 步骤4所述的结合时空特征分析,定义每种聚类包含的那些租赁点所代表的功能,具体的:每个聚类结果结合其租赁点的地理位置信息和其周围分布的POI(Point of Interest)数据(POI即兴趣点,为具有地理位置的公共设施、店铺、居民楼等地点。POI数据的分布在一定程度上可以反映某类地物的分布),以及城市居民租借自行车的社会活动和社会时间定义该租赁点的功能,每个租赁点的功能包括:工作、娱乐、、居住、旅游等,具体的实现步骤如下:
[0042] 4‑1.根据公共自行车系统的历史用户使用记录分析城市居民租借自行车的社会活动和社会时间,具体的:功能为工作和居住的租赁点注册用户的使用频次要高于非注册用户,两类功能的租赁点在一天使用特征上呈现“双峰”状态,并且这两类的租赁点使用需求呈现相反状态:早高峰较多用户从居住功能的租赁点借车去工作功能的租赁点还车,晚高峰则相反;景区功能的租赁点则呈现“单峰”状态,并且非注册用户的使用频次要高于注册用户;居住功能的租赁点在早高峰时,较易出现“用户无法借车”情况,而晚高峰则出现“用户无法还车”情况,而工作区的租赁点则呈现相反状态。
[0043] 4‑2.分析聚类结果中的租赁点的地理位置信息和其周围POI分布,具体如下:
[0044] 4‑2‑1.租赁点的使用特征受到其空间位置影响,位于城市中心地带的租赁点集群的使用频次明显较多,这几个集群租赁点是将所有租赁点联系起来的核心租赁点。对于一个城市来说,商业区,住宅区,文化区构成了城市的必要组成部分,那么位于中心地带的租赁点则主要完成城市中工作、居住、娱乐功能。
[0045] 4‑2‑2.公共租赁点一共有S个,计算任意一个租赁点(1…i…S)所具有的POI分布统计,例如,对于任意租赁点Si,我们都可以求出POI分布向量POI‑Si(P1,P2,…Pp,…Pn),Pp是租赁点编号为i的第p类POI的TF‑IDF值:
[0046]
[0047] 其中,np为第p类POI在租赁点i的数量,Ni为租赁点i总共拥有的POI数量,S为所有的租赁点总个数,||Si|the  p‑thPOI∈Si||为第p类POI出现在不同租赁点的数量。为功能第c类租赁点的覆盖面积,可进一步求出步骤3得出的聚类结果中
不同集群之间的POI分布POI‑Ci(P1,P2,…Pp,…Pn):
[0048]
[0049] 本发明有益效果如下:
[0050] 本发明利用了LDA模型与k‑means这两个经典数据挖掘方法,并且公共自行车系统与LDA模型的适用条件能够很好的契合,因而能够运用LDA来科学地租赁点进行功能聚类。该发明可以实现各种各样的应用:用户可以快速地了解分布在一个城市中不同租赁点的功能,(公共自行车是一种绿色的、有趣的交通工具,在旅游区使用公共自行车可以给人们带来舒适的旅行体验);为公共自行车未来的规划提出依据(建设新的租赁点,扩充/减少租赁点容量等);指导用户使用公共自行车(每个租赁点所代表的功能区域可以指出租赁点的“潮汐”状态);可以指导商业和广告的建立(具有“旅游”功能的租赁点可以增加广告摊位或者在附近建设商店等设施)。

实施方案

[0053] 下面结合附图和实施例对本发明作进一步说明。
[0054] 如图1所示,一种公共自行车系统租赁点功能聚类方法,包含以下步骤:
[0055] 步骤1、对于公共自行车系统,首先利用租赁点位置信息,采用泰森多边形算法对城市进行区域划分,每个租赁点覆盖一定的区域,将每个租赁点看做一个“文本”进行挖掘分析。
[0056] 步骤2、将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”。
[0057] 步骤3、使用LDA模型和K‑means算法对租赁点进行租赁点功能识别。
[0058] 步骤4、对每个聚类结果进行时空特征分析,定义每种聚类包含的那些租赁点所代表的功能。
[0059] 步骤2所述的将公共自行车系统的使用历史记录转换为该租赁点所包含的“单词”,具体操作如下:
[0060] 2‑1.定义每个乘客的一次出行产生的记录为TS,TS=(TS.SO,TS.tO,TS.SD,TS.tD),其中,TS.SO表示借车站点,TS.SD表示还车站点,TS.tO表示借车时刻,TS.tD表示还车时刻。
[0061] 2‑2.由于用户能够在任意租赁点租借/归还自行车,因此设置两种客流模式:租借模式、归还模式;定义MO为租借模式:MO=(TS.SO,TS.sD,TS.tO);定义MD为归还模式:MD=(TS.SO,TS.SD,TS.tD)。
[0062] 2‑3.对每个租赁点设置两种使用模式,分别为租借模式和归还模式,分别定义为XSO、XsD。根据用户的客流模式得出所有租赁点s(1…S)的使用模式向量:
[0063] XSO=(CO1,CO2,…,COs,…,COS);
[0064] XSD=(CD1,CD2,…,CDs,…,CDS)。
[0065] 其中,COs为在编号为s的租赁点发生租借行为的所有记录,COs=||{MO={x,y,z}|x=s,y=i,z=k||,COs它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为s的租赁点借车,到编号为(1··i··S)的租赁点还车发生的记录统计量;同理,CDs为在编号为s的租赁点发生还车行为的所有记录,CDs=||{MD={x,y,z}|x=i,y=s,z=k||,它是一个S×T矩阵,表示在时间点(1…k··T)内,从编号为(1··i··S)的租赁点借车,到编号为s的租赁点还车发生的记录统计量。
[0066] 2‑4.将每一个租赁点作为一个文档,租赁点对应的区域功能视作文档的主题,租赁点的使用模式相当于组成每篇文档的单词。
[0067] 如同每篇文档的每个词都是通过“以一定概率选择了某个主题,并从这个主题中以一定概率选择某个词语”这样一个过程得到,租赁点的用户出行模式也可以推导出租赁点所在区域的功能。
[0068] 公共自行车系统一共有S个租赁点,设研究的文档个数也为S篇。根据租赁点的使用模式向量XSO和XSD,得出任意一个租赁点的组成内容为Cs=(WOs,WDs)。以编号为i的租赁点为例来说明一篇文档的单词是如何计算的,编号为i的租赁点的定义单词为WOi=COi,WDi=CDi。在时刻t时,从编号为i的租赁点借车去到租赁点编号为s(1,2,…,..,S)的租赁点还车的记录有M条,表示租赁点i有M个WOi=(i,s,t)这样的单词;在时刻t时,从编号为s(1,2,…,..,S)的租赁点借车去到租赁点编号为i的租赁点还车的记录有M条,表示租赁点i有M个WDi=(i,s,t)这样的单词。
[0069] 步骤3所述的使用LDA算法和K‑means算法对租赁点进行租赁点功能识别具体如下:
[0070] 3‑1.根据步骤2得出的每篇“文档”的“单词”,对公共自行车系统租赁点使用LDA算法并得到每个租赁点的主题分布,将得到文档在每一主题上的概率分布作为文档的特征值;
[0071] 所述对公共自行车系统租赁点使用LDA算法从而得到每个租赁点的主题分布的过程如下:
[0072] 3‑1‑1.对于所有的主题k∈[1,K]:生成
[0073] 3‑1‑2.对于所有的文档s∈[1,S]:
[0074] 生成文档‑主题分布
[0075] 生成文档的长度Ns,Ns~Poiss(ξ);
[0076] 3‑1‑3.对于任意一篇文档的单词n∈[1,Ns]:
[0077] 生成单词所对应的主题
[0078] 生成该主题对应的单词
[0079] 其中S为公共自行车系统租赁点的总数;K为设置的租赁点功能数(主题);Ns为编号为s的租赁点中单词的总数; 代表第s个租赁点的主题分布;Zs,n生成编号为s的租赁点的第n个单词的租赁点功能; 代表编号为k的主题之上的词分布; 代表每个租赁点的主题分布的先验分布Dirichlet分布的参数; 代表每个主题的词分布的先验分布Dirichlet分布的参数; 为通过租赁点的使用模式转化租赁点所具有的单词。
[0080] 本发明使用吉布斯采样估计LDA分布,如图2所示流程,初始时随机给文本中的每(0)个单词分配主题z ,然后统计每个主题z下出现的词t数,每个文档s下出现的主题z中的词的数量,每一轮计算 即根据其他词的主题分布和观察到的单词来计算
当前词主题的概率:
[0081]
[0082]
[0083] 其中, 是词汇t被赋予主题k的次数,βt每个主题的词分布的先验分布Dirichlet分布的参数, 是语料库中的所有词汇被主题k的次数, 是文档s中
的所有词汇被赋予主题k的总次数。
[0084] 当得到当前词属于所有主题z的概率分布后,根据这个概率再分配一个新的主题z(1)。然后循环直到发现每个文档下的 代表编号为K的主题之上的词分布, 代表第s篇文档的主题分布。
[0085] 所述的将得到文档在每一主题上的概率分布作为文档的特征值,具体的使用吉布斯采样来估计LDA分布,从而求出以下矩阵作为文档的特征值:每个租赁点的各个词被指定的主题编号:.tassign;每个租赁点的主题概率分布Θ:.theta;每个主题下的词概率分布中:.phi;每个主题下中概率排序从高到底top n特征词:.twords。
[0086] 3‑2.采用k‑means聚类算法对不同的文档进行功能聚类,具体实现步骤如下:
[0087] 3‑2‑1.随机选取K个聚类质心点为μ1,μ2,...,μk∈Rn;
[0088] 3‑2‑2.对于每一个文档i,计算该文档应该属于的类
[0089] C(i)=arg minj||x(i)‑μj||2.
[0090] 对于每一个类j,重新计算该类的质心点:
[0091]
[0092] 3‑2‑3.重复步骤3‑2‑2,直到该类的质心点收敛。
[0093] 步骤4所述的结合时空特征分析,定义每种聚类包含的那些租赁点所代表的功能,具体的:每个聚类结果结合其租赁点的地理位置信息和其周围分布的POI(Point of Interest)数据(POI即兴趣点,为具有地理位置的公共设施、店铺、居民楼等地点。POI数据的分布在一定程度上可以反映某类地物的分布),以及城市居民租借自行车的社会活动和社会时间定义该租赁点的功能,每个租赁点的功能包括:工作、娱乐、居住、旅游等。具体的实现步骤如下:
[0094] 4‑1.根据公共自行车系统的历史用户使用记录分析城市居民租借自行车的社会活动和社会时间,具体的:功能为工作和居住的租赁点注册用户的使用频次要高于非注册用户,两类功能的租赁点在一天使用特征上呈现“双峰”状态,并且这两类的租赁点使用需求呈现相反状态:早高峰较多用户从居住功能的租赁点借车去工作功能的租赁点还车,晚高峰则相反;景区功能的租赁点则呈现“单峰”状态,并且非注册用户的使用频次要高于注册用户;居住功能的租赁点在早高峰时,较易出现“用户无法借车”情况,而晚高峰则出现“用户无法还车”情况,而工作区的租赁点则呈现相反状态。
[0095] 4‑2.分析聚类结果中的租赁点的地理位置信息和其周围POI分布,具体如下:
[0096] 4‑2‑1.租赁点的使用特征受到其空间位置影响,位于城市中心地带的租赁点集群的使用频次明显较多,这几个集群租赁点是将所有租赁点联系起来的核心租赁点。对于一个城市来说,商业区,住宅区,文化区构成了城市的必要组成部分,那么位于中心地带的租赁点则主要完成城市中工作、居住、娱乐功能。
[0097] 4‑2‑2.本发明所研究的公共租赁点一共有S个,所以,可以求得任意一个租赁点(1…i…S)所具有的POI分布统计,例如,对于任意租赁点Si,我们都可以求出POI分布向量POI‑Si(P1,P2,…Pp,…Pn),Pp是租赁点编号为i的第p类POI的TF‑IDF值:
[0098]
[0099] 其中,np为第p类POI在租赁点i的数量,Ni为租赁点i总共拥有的POI数量,S为所有的租赁点总个数,||Si|the  p‑thPOI∈Si||为第p类POI出现在不同租赁点的数量。为功能第c类租赁点的覆盖面积,可进一步求出步骤3得出的聚类结果中
不同集群之间的POI分布POI‑Ci(P1,P2,…Pp,…Pn):
[0100]

附图说明

[0051] 图1为公共自行车系统功能聚类方法图。
[0052] 图2为使用吉布斯采样估计LDA分布过程。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号