沙茶酱的小窝
沙茶酱的小窝

技术 | FYP的那些事:(1) 数据预处理

技术 | FYP的那些事:(1) 数据预处理

真的好久好久没写东西了,掐指一算本科四年也就这样迷迷糊糊过去了。实在遗憾自己没做太多的事情,又因为接连不断的疫情在不同的地方频繁受困。是时候再写写东西了。

Final Year Project (FYP),在大部分高校通常是毕业论文/毕设,好像是大四竭尽一学期努力搞出来的。但这玩意好像在我校并没有那么神圣的地位?因为对于我们来说则只算其中的一个“课程”,在第一学期和第二学期(上半)都是被其他六门课无情挤占着,毫无地位,只能在日复一日的大夜中尽情挥洒汗水与泪水。当然,系里好心再最后给了你两周时间“打包”FYP。但再怎么说,它也有足足10学分,不容小觑,对于下半年能不能续期学生证来说,还是有挺大的影响(无论是本校续期还是异校续期)

为了能够“更好地”接受剩下三门课的洗礼,我们FYP的DDL即定在四月初(原本还是三月),那段时光回忆下来,算是痛并快乐着。痛啊,一是在于自己的拖延症还未得到解决,最终的文字部分又是在FYP前那么几周匆匆开始;二是在于自己的选题走出了四年来的舒适圈,终于开始涉足一些简单的技术方法论而非通篇大话废话,但对于四年摆烂的自己来说,这个过程确实稍微折腾些。快乐嘛,就是达到了我一开始选题的初衷——我必须真正学到些什么。这个把月的定量分析初探初试,确实让我再深入了解了ArcGIS和DepthMapX,同时也学到了很多分析方法,虽然都是用各种现成的轮子铸造起的顶级缝合怪。现在在回想,开始的太晚了,我本来大一就应该开始这样,未来的路如何,没有把握了。

写这篇文章,是为了记录下我这次研究方法所使用的一些工具和手段,尽管它们可能不一定那么科学——但还是很有必要的,毕竟如果我以后万一要重新用上,抑或是哪个朋友想咨询我什么什么怎么做,我要马上获得答案,而不是苦思几个小时却无奈表示早已遗忘。

好了,说正题。我这次的研究主题是《基于大数据的邻里可步行性评价》(事实上远远不够BIG),研究分为两个部分:第一部分是基于文献综述构建邻里可步行性评估框架;第二部分是基于框架对研究区域——莲花新村进行实证研究,这部分便是这篇文章的重点。

接下来,我会陆续写写我所用的这些方法,包括一些工具和操作流程,今天作为开篇,先来做个绪论,概括地介绍下研究的方法和数据的预处理。

方法概述

这次的研究基于五个维度和十四个测度指标所构建起的可步行性评估框架。该框架利用了四种类型的数据:步道网络、POIs、街景、问卷。图1展示了研究的数据处理流程和其对应的测度指标/维度。

https://img.cdn.scjiang.cc/2022/05/Methodlogy-Framework-1.png?x-oss-process=style%2Flarge

图1: 研究方法框架

基础数据

接下来讲讲这四个基础数据的来源和预处理。

步道网络数据

步道网络数据自然是通过喜闻乐见的OpenStreetMap获取的,当然因为我研究区域的尺度比较小,国内又没什么编辑者,因此我还是提前先把莲花新村的路网完善了,再下载,同时我也把校园区域的路网一并完善了,留给学弟学妹们发挥啦,也算是简单做点贡献了。

https://img.cdn.scjiang.cc/2022/05/Map-of-research-area.png?x-oss-process=style%2Flarge

图2: 研究区域的OSM地图,丰富内容的后社区与隔壁真是形成鲜明对比

当然下载线数据后,这个原始数据集要素过多,还得先预处理,像河道、电网什么的压根没关系的线段全部剔除,仅保留所有正式的步行道路中心线,包括主干道的人行道、社区道路、商业广场主要穿行路径等。

接下来再进行拓扑和构建网络数据集,具体操作流程可见这篇文章:

(Coming soon…)

最终得到了拓扑无误的莲花新村社区步道网络数据集,如图3所示,这将是后续一系列操作开展的基础。

https://img.cdn.scjiang.cc/2022/05/421-道路预处理后数据.jpg?x-oss-process=style%2Flarge

图3: 处理好的网络数据

POIs数据

POI全称Point of Interest,即兴趣点。POIs数据通常来源于网络地图,当时了解了一种是自己找轮子扒下来,同时还有一些软件来转换火星坐标;另一种是也有很多专门扒在线地图的工具,比如水经注地图下载器云云,但这些软件动辄授权费上千,我暂时也不会用到很多,所以也没必要。作为懒人的我,最后还是搬出淘宝大法啦——直接淘宝找商家代下数据。当时没有货比N家,最后发现好像被宰了一大刀,默泪许久。

拿到POIs数据后,接下来清洗筛选,剔除掉与研究无关的类型(汽修店、停车场、政府机关之类)和重复的数据,这次研究不算很复杂,因为就百来个点,手动操作下就完事了。

https://img.cdn.scjiang.cc/2022/05/11-POI分布.jpg?x-oss-process=style%2Flarge

图4: 研究区域的POI分布,典型的邻里中心形态

街景数据

说到街景数据也都是泪,因为研究涉及到小区内部,很多地方不可能会有百度街景,必然要亲自跑腿了。首先先基于路网数据打个渔网图,间隔100米,然后调整下渔网点,剔除掉封闭区域或非步行区域内的点(学校、河道),然后将剩下的点调整到最近的道路上,于是我要获取街景的观测点就出来了。

接下来就是拿数据了。百度街景没有的数据亲自实地拍摄,那两天,每天走3万步,硬是走完整个社区百多个点。最开始拿的相机拍摄,其实到了午后就发现阳光太强,渣渣相机光圈驾驭不住这光,还不如带有硬件HDR的手机,遂后大半全用手机拍摄。

实地跑完回宿舍开始获取百度街景数据。其实街景数据的爬取也有一些工具,但反正因为网络街景的观测点不多嘛,干脆在屏幕上设定一个标准视角参考线,直接暴力手动截半小时。当然这样难免有误差,大家还是不要学我,只是赶时间找个最高效率方案啦。

最后就是裁剪、标准化这些影像数据,我用XnConvert简单处理,以地平线中心为中心点,以长1000px的尺寸进行截取,然后把处理好的数据整理完放一边就可以准备做后面的语义分析了。

https://img.cdn.scjiang.cc/2022/05/423-观测点.jpg?x-oss-process=style%2Flarge

图5: 街景的观测点

问卷数据

问卷数据就不用太多提了,主要介绍下问卷设计和收集方式。

问卷设计直接拿来主义,请了Zhou et al (2011)对Neighborhood Environment Walkability Scale(步行环境量表)的中国本地化成果,其已经验证具有较好的信度和效度。至于问卷的收集方式,参考了Kelly et al. (2011) 的可步行性评价现场问卷的相关收集方法,如图6所示,在了街道的尽头或社区的出口向行人发放问卷,以获得受访者对街道的即时性评价。

冬天实在太冷了,近于零度的街上没什么人,收集问卷实在不多,本来打算3月初春再去收集一轮的,奈何疫情啊,最后这部分也不是什么重点了。

https://img.cdn.scjiang.cc/2022/05/424-问卷收集地点.jpg?x-oss-process=style%2Flarge

图6: 问卷的收集地点

于是,数据的预处理就大功告成啦 ;-)

下一篇文章应该会再回顾一下拓扑和建立网络数据集的流程。

沙茶酱的小窝

技术 | FYP的那些事:(1) 数据预处理
序 真的好久好久没写东西了,掐指一算本科四年也就这样迷迷糊糊过去了。实在遗憾自己没做太多的事情,又因为接连不断的疫情在不同的地方频繁受困。是时候再写写东西了。 Final Year Proj…
扫描二维码继续阅读
2022-05-07