[收稿日期]2020-08-30
[基金项目]中国邮政集团有限公司邮政研究中心科研基金(ZB2020-029-KY )[作者简介]黄玉萍(1974-),女,江西九江人,华南理工大学博士,高级工程师,研究方向:智慧物流、邮政大数据应用;郑梦
飞(1993-),通信作者,女,山西吕梁人,南开大学硕士,研究方向:邮政大数据应用。
doi:10.3969/j.issn.1005-152X.2021.01.025
黄玉萍,郑梦飞,谢
翔
(中国邮政集团有限公司邮政研究中心
邮政智能装备工程技术研究中心,北京
100096)
[摘要]针对快递企业拓展业务困难的情况,提出了基于快递运单发现快递公司网点周边潜在客户的方法。
以北京市为例,采用网络爬虫从互联网抓取快递运单,通过对运单数据进行分析获得快递营业网点信息,利用高德开放平台提供的POI 数据查询功能,发现快递网点附近潜在客户信息。研究结果表明业务量最大的几个网点占据了地区总业务量的半数以上,挖掘这些网点的业务情况,对于企业的发展有启发意义。研究成果可为快递企业进行竞争性客户分析提供支撑,也可为快递企业进行市场推广提供辅助支撑。
[关键词]快递企业;快递运单;POI 数据;营业网点;客户发现[中图分类号]F259.23;P208[文献标识码]A [文章编号]1005-152X(2021)01-0122-06
A Means of Customer Discovery for Express Companies Based on Waybill and POI Data
HUANG Yuping,ZHENG Mengfei,XIE Xiang
(Postal Intelligent Equipment Engineering Technology Research Center,China Post Group Co.,Ltd.
路远风Postal Research Center,Beijing 100096,China)
Abstract:In this paper,in view of the difficulties experienced by express companies in business expansion,we proposed a method for discovering potential customers around express company outlets based on express waybills.Taking Beijing as an example,we used the web crawler to grab express waybill data from the Internet,and through analyzing the data,obtained information about the express business outlets.Next,using the POI data query function provided by the AutoNavi open platform,we managed to find information about potential customers near the express outlets.The result of the study shows that the several outlets with the largest business volume account for over half of the total business in the region.Excavating the business conditions of these outlets is instructive for the development of enterprises and the research result can provide support for express companies to conduct competitive customer analysis,and also provide auxiliary support for express companies in market expansion.
Keywords:express company;express waybill;POI data;business outlets;customer discovery
0引言
快递运单是快递包裹的唯一标识代码,通过单
号查询可以实时跟踪快件的物流信息。在互联网高度发达的今天,利用网络爬虫可以获得大量的快递
运单的物流信息,基于该信息可对相应快递包裹业务进行精细分析,如:时限分析、营业网点位置分析、网络路由分析等[1]。
POI(Point Of Information)又称为兴趣点,数据源于地图导航服务,具有空间坐标和属性信息,是一种表征真实地理空间实体的数据集,具有精度高、覆盖
广、更新快、易获取的数据特点。每一个POI 点在空间上都可以代表一个功能要素,可以是一栋房子、一个商铺、一个邮筒、一个公交站等。近几年随着互联网上POI 数据的开放使用,众多学者开始探索POI 数据在相关领域的应用,如郭昭以东莞市POI 数据为基础,研究了基于POI 数据的城市功能空间识别及中心城区功能复合测算方法[2]。中国测绘科学研究院曹元晖以POI 数据为主要信息源,为建筑物内部及周边一定区域范围内的POI 赋予反距离权重,通过计算不同类型POI 的加权频数密度比例来识别建筑物功能类型[3]。广州市交通规划研究院的宋程基于POI、收
-
-122
集信令数据、互联网位置数据等多源数据进行了城市活力区和中心城区边界识别研究[4]。
进入二十一世纪,中国快递继续保持高速增长,市场规模日益壮大,市场上的各个竞争主体——快递
企业,它们对市场的争夺日趋白热化。因
此,各个企业如何在竞争白热化的市
场中争取新客户、留住客户,对企业的生存与发展具有重大的意义[5-7]。
本文研究了通过网络爬虫采集快递运单,从运单信息中抽取快递网点周边POI信息,从而发现潜在快递客户资源的方法。并以某快递公司为例,研究了其在北京地区的客户资源分布状况。本文的研究结果可以为其市场开拓提供辅助支撑。
1数据源及数据获取
1.1数据源
本研究所采用的数据来源于通过快递单号查询获得的快递包裹轨迹信息,“快递100”网站可提供不同快递公司快递单号的实时查询,因此,本研究选择了“快递100”网站作为快递运单数据的来源。本文的数据获取对象为某快递公司在北京地区的快递运单数据,数据采集时段从2019年12月至2020年5月,采集内容包括:单号信息、时间信息、业务内容、地点信息,累积采集2000万条运单数据。
1.2运单数据获取
从互联网上采集大量的运单数据,需要使用网络爬虫来实现[8-10]。网络爬虫是一个可以实现定向抓取互联网上特定页面内容的程序,从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码、JSON数据、图片、视频等爬到本地,进而提取自己需要的数据,存放起来使用。
网络爬虫工作首先明确要爬取的网站和数据,选择合适的方法来抓取数据,再将解析下载下来的网页和价值数据持久化,保存到数据库中。网络爬虫的基本工作流程如图1所示。
在抓取运单数据时,需要提供运单号,在本研究中,以一个真实的快递运单号为种子单号,按照一定的算法生成单号队列,按队列中的单号信息查询运单数据,生成运单数据表。其中,编程语言为Python 3,在PyCharm集成环境下开发,数据库为Mysql 8.0+。接口测试工具为Fiddler,数据通过json进行交换。
1.3运单数据结构
图2为某快递公司快递产品的物流轨迹,我们将包含快递单号,物流信息及时间的数据称为该快递的运单信息(简称运单),基于运单可以了解每一件快递产品的物流轨迹,通过对物流轨迹的分析,可以推
测快递产品的收寄地及相应的客户分部状况。
三生三世枕上书演员表图2快递运单
为了提高数据的存储与检索效率,建立运单表,包含运单号、作业时间、业务信息、作业地点,见表1。
图1网络爬虫工作流程图
-
-123
表1运单表结构
字段名order_id time info citi 数据类型
varchar
varchar
varchar
varchar
长度
20
100
500
255
空否
N
Y
Y
Y
说明
运单号
作业时间
作业信息
作业城市
2基于运单的营业网点分析
2.1数据处理
2.1.1数据去重。如前文所述,本研究中运单号是基于“母单号”自动生成的,由于“母单号”不唯一,因而生成的采集单号序列间存在单号重复的问题,导致运单表中会存在一定数量的重复记录。为了保证数据库中记录的唯一性,在进行数据分析之前,需要结合单号、时间组合条件对运单表进行去重处理。
2.1.2异常值处理。本研究进行了为期6个月的数据准备,采集了某快递公司2019年12月至2020年6月间的2000万运单数据。由于数据采集是基于对运单号的“试错”,即如果该运单号真实存在就返回信息,不存在就放弃,重新采集单号队列中的下一运单,所以采集的数据存在采样不连续的特点,
如图3所示。
图3采样数据日分布图
为了避免因数据不连续带来的统计失真,从整体数据集中选择2019年12月、2020年3月、2020年4月、2020年5月的数据作为分析样本。
2.2获取营业网点名称及地址
快递公司的服务对象是其营业网点周边的商超、住宅小区、办公楼,即其潜在客户分布在营业网点的周边。要了挖掘快递公司的客户体,需要先确定其末端营业网点的名称和地址。从运单表中按“citi”+“info=揽收”条件进行查询,可获得该快递公司在北京地区的营业网点名称。查询代码如下:SELECT DISTINCT location
FROM(
SELECT first_value(citi)over(PARTITION BY or-der_id ORDER BY time ASC)as location
FROM yd.dbf)AS t
#WHERE location LIKE'%朝阳%';
在高德地图开放平台对网点名称进行查询,可获得网点的结构化地址,如图4
所示。
图4网点地址
2.3确定目标网点
客户资源的价值,可以通过与其有业务往来的网点业务量大小来衡量。为了发掘有价值的客户资源,需要对网点进行分类,将同一统计时内业务量大的网点定义为优质网点。优质网点客户资源丰富,具有客户资源挖掘的意义。通过对所采集数据的分析,得出同一时间段内该快递公司90%以上的业务量
集中在42个营业网点(如图5所示),因此,将这42个营业网点作为客户资源挖掘的目标,对其进行客户资源的挖掘。
2.4网点地理编码
地理编码,又称为地址匹配,是从已知的结构化地址描述到对应的经纬度坐标的转换过程。根据给定的地理名称和查询城市,返回地理编码的结果列表。显示效果如图6所示。
3POI数据获取及客户资源挖掘
高德地图提供千万级别的POI数据,所有数据均
--124
林肯公园lol按三级分类,层次清晰,精度较高。POI 数据的标签基本涵盖了所有的设施类型,见表2。
表2
POI 类别标签
POI 数据大类风景名胜
科教文化
购物
体育休闲服务商务住宅
交通设施服务祁可欣照片
POI 数据小类
城市广场、动物园、水族馆、植物园、风景名胜、公园、公园广场、
观景点、世界遗产、国家级景点、省级景点、回教寺、教堂、寺庙
道观、纪念馆、旅游景点报社、博物馆、成人教育、出版社、传媒机构、档案馆、电视台、会
展中心、图书馆、高等院校、幼儿园、小学、中学、职业技术学校、
杂志社、培训机构、文化宫超市、便民商店、购物中心、普通商场、沃尔玛、华润、家乐福、麦
德龙、屈臣氏、上海华联、综合家电商场、专营店、免税品店、蔬
菜市场、水产海鲜市场
足球场、综合体育馆、运动场所、羽毛球场、游泳馆、游乐场、台
球场、赛马场、网吧、游戏厅、健身中心、休闲场所、音乐厅、夜总
会、影剧院相关产业园区、别墅、商务写字楼、商务住宅相关、商住两用楼宇、社
区中心、宿舍、住宅区、住宅小区
地铁站、公共停车场、公交车站相关、专用停车场、路边停车场、
停车场出入口、火车站、机场
利用POI 数据,可以实现客户资源挖掘,具体方法如下:(1)利用高德地图开放平台,获得网点的地址编码。(2)以网点为核心,搜寻一定半径范围内的POI 信息。(3)借助POI 对网点周边地理信息进行分类,识别客户资源。
高德开放平台提供多种查询POI 信息的功能,其中包括关键字搜索、周边搜索、多边形搜索、ID 查询四种筛选机制。本文所使用的POI 数据基于高德API 开放接口,采取周边搜索中的关键字搜索和POI 类型搜索方法,运用Python 编程语言编写网络爬取
工具获取数据并输出。实现方法如下:
restapi.amap/v3/place/around?key=您的key&location=116.409692,39.97118&keywords=北京&types=011100&radius=2000&offset=20&page=1&ex -tensions=all&output=json
说明:location(116.409692,39.97118)是需要查询的中心点,keywords(北京)指定搜索城市为“北京”,types(011100)为搜索返回的POI 数据类型,radius (2000)指定搜索半径为2km,extensions(all)为返回的数据内容,参数output(json)用于指定返回数据的格式,key 是用户请求数据的身份标识。
返回的数据为
{
"status":"1","count":"0","info":"OK","infocode":"10000","suggestion":{"keywords":[],"cities":[]},"pois":{"0":{…
"name":"普天充电站(国资委门)","type":"汽车服务;充电站;充电站","address":"门外大街56号","location":
"116.408358,39.964466",
图5
网点同一时期业务量占比
图6地理编码图-
-125
"adname":"东城区",
"business_area":"门"
}
"1":{…},
"2":{…},
…
}
}
说明:POI点的信息都在pois中。name表示名称,type表示的类型,address指出地址,location表示具体的经纬度,adname表示所属行政区域(区县级别),business_area表示所在商圈。
4应用实例
从互联网上采集某快递公司近2000万条运单信息,对其在北京地区的网点布局及客户资源情况进行分析挖掘,研究结果如下:英格兰vs伊朗预测
4.1确定网点位置并进行地址编码
采用前述对运单数据的分析方法,得到该快递公司在北京地区共有184个营业网点,在北京各个区的网点数据分布见表3。
表3北京各区网点数量
区域朝阳区大兴区海淀区丰台区顺义区通州区昌平区房山区西城区石景山区东城区门头沟区密云区平谷区延庆区怀柔区网点数量35 26 23 18 17 17 16 7 6 5 4 4 2 2 1 1
利用高德地图可获得各个网点的地址编码。图7为在高德地图上标记的该公司在北京朝阳区营业
网点的位置信息。
图7朝阳区营业网网点
4.2确定目标网点职业女装品牌大全
利用所描述的方法,对样本数据进行分析后发现,该公司在北京地区的90%的业务量集中在42个营业网点,因此把这42营业网点作为客户资源挖掘的目标。目标网点的分布情况见表4。
表4北京各区目标网点数量
区域
朝阳区
海淀区
昌平区
大兴区
丰台区
通州区
顺义区
房山区
东城区
石景山区
目标网点数量
12
9
4
4
3
3
2
2
2
1
其中朝阳区的目标网点分布情况如图8所示。
4.3POI数据获取及客户资源挖掘
利用目标网点地址编码,可从高德地图开放平台获得网点周边POI数据,对网点周边POI进行分类,进行客户资源挖掘。图9为对网点(116.409692,39.97118)周边2km范围内的POI查询结果,基于该结果可获取客户名称和详细地址,为市场推广提供
--126
发布评论