商务数据分析测试题
简答题
一、商务数据搜集要注意的原则有哪些?
为了保证收集工作的有效性和数据价值,需要注意以下几个原则:
(1)及时性。注意数据的产生时间,过时的数据解决不了当下的问题。
(2)全面性。充分考虑到内部和外部的数据来源,尽量避免幸存者偏差、选择性偏差等。
(3)相关性。避免犯两类错误:有什么数据就用什么数据,且喜欢复杂的模型;不进行事前调查,没有任何基础就想当然的收集数据。
(4)经济性。在选择要分析的商业指标、确定数据收集方法以及收集流程的过程中,要将可能产生的效益与花费的人力、物力、财力、时间等成本进行衡量,从而制定更为经济可行的数据收集方案。
二、说明商务数据收集的流程
数据分析人员可以按照如下的流程进行操作:
(1)定位商业问题,确定有理有据的收集指标。定位商业问题的最终目的是要透过现象看本质,运用4W提问法挖掘期望成果和行动之间的因果关系。
(2)考虑指标特征,选择经济可行的收集方法。确定了要收集的数据指标后,就需要着手根据指标特征结合收集成本,考虑获取数据应使用的方法。
(3)明确任务分工,制定切实有效的收集方案。在正式进行数据收集工作前,应明确数据收集的指标范围和时间范围。接着明确这些数据需要从哪些途径及部门收集,最后确定参与部门和人员配备并落实为工作方案。
怎么做数据分析(4)建立数据规范,进行完整准确的数据检查
数据指标需对数据进行唯一性标识,并且贯穿之后的数据查询、分析和应用,建立数据指标规范是为了使后续工作有一个可以遵循的原则,也为庞杂的数据分析工作确定了可以识别的唯一标识。
三.说明通过各种渠道收集的原始数据存在的问题?
原始数据主要存在以下几个问题:
(1)缺失数据,是指在实践过程中因种种原因没有能够获取观测对象的相关信息,造成数据不完全。
(2)异常值数据,也可称为离点,是指所获得的数据中与平均值的偏差超过两倍及两倍以上标准差的数据。
(3)重复数据,一般分为实体重复和字段重复两种。其中,实体重复是指所有字段完全重复,字段重复则表示某一个或多个不该重复的字段重复。
(4)冗余数据,一方面是指多个数据集合并时,同一内容不同命名或者编码,例如某数据集中的变量名称为“用户编码”,在另一个数据集中却为“id”;另一方面也指数据集中的2个或多个变量之间存在相关或者推导关系。冗余数据会造成数据重复或分析结果产生偏差。
(5)不一致数据,一般表现为3个方面的问题:一是人为/机械原因导致的录入错误或者数据规范不同;二是变量单位或者量纲不匹配;三是数据特征不适应特定数据分析模型的需求或变量过多分析难度较大。
四、分析数据集数列,哪些指标可以测度数据的集中趋势?
答:测度数据的集中趋势的指标可分为数值平均数和位置代表值两大类。数据平均数主要包括算术平均数、调和平均数和几何平均数;位置代表值主要有中位数和众数。
数列的算术平均数为15,调和平均数为5.14,几何平均数10.50,中位数为13,没有众数。
论述题
一、二手数据的收集方法有哪些?举例说明。
二手数据包括内部数据和外部数据两种。
(1)内部数据
内部数据来自于组织内部,因其他目的而收集。内部数据的收集来源为业务资料、统计资料、数据库等(企业数据库、部门沟通等),收集方法包括报表收集、数据库收集、系统日志数据收集等。
①报表收集。报表收集是指企业可以通过相关业务部门每日、周的工作报表进行数据收集,如销售明细、出入库清单、客服记录等。
②数据库收集。数据库收集是指企业将数据库收集系统直接对接到业务后台服务器,业务后台每时每刻产生的大量业务记录即可写入到数据库中,最后由特定的处理系统进行数据分析。
③系统日志数据收集。系统日志数据收集主要针对互联网上的商务活动。网站日志会记录访客IP地址、访问时间、访问次数、停留时间、访客来源等数据。通过对这些日志信息进行收集、分析,可以挖掘企业业务平台日志数据中的潜在价值。
(2)外部数据
外部数据是指从组织外部获得的二手数据。外部数据的收集来源为公开出版的资料、计算机数据库、其它来自互联网的资料(网站日志、第三方平台统计、互联网检索、网络爬虫等),收集方法包括文献收集、网页数据收集等。
发布评论