《2019级物流管理专业专升本考试商业数据分析练习题》的文档包含了多项选择题,涵盖了商业数据分析的关键概念,如数据编码、大数据特性、分析工具、HTTP响应状态码、网络爬虫、数据库类型、数据处理方法以及数据可视化等。以下是相关知识点的详细解释: 1. **特征编码**: - 哑变量编码(B选项)是将分类变量转化为多个二元变量,例如性别编码中,"M"对应一个变量为1,"F"对应另一个变量为1,"unknown"对应第三个变量为1。 - 数字编码(C选项,正确答案)是指直接用数字代表类别,如题目中性别编码为0, 1, 2。 2. **大数据的4V特性**: - 大数据的四个主要特性是规模性(Volume)、多样性(Variety)、速度(Velocity)和价值性(Value),不包括合法性(Validity)(C选项,正确答案)。 3. **KNIME分析工具**: - KNIME是一款强大的分析平台,基于Eclipse,提供可视化工作流构建,但并不需要编程,用户可以通过拖拽组件来实现分析(C选项,错误答案)。 4. **HTTP响应状态码**: - 200表示请求成功,301表示永久重定向,404表示未找到(资源不存在),502表示错误的网关(服务器作为网关或代理,但是从上游服务器接收到无效的响应)(C选项,错误答案)。 5. **网络爬虫使用场景**: - 网络爬虫常用于获取网页上的公开信息,例如商品价格、招聘薪资、热点事件评论等,但不能爬取个人电脑内部数据(B选项,正确答案)。 6. **关系型与非关系型数据库**: - 关系型数据库如Oracle、MySQL、SQL Server适合存储结构化的二维表格数据(C选项,正确答案),而非关系型数据库如MongoDB则更适合非结构化数据。 7. **缺失值处理**: - 缺失值处理包括确定范围、比例,删除或填补,但转换数据类型不是缺失值处理的范畴(D选项,正确答案)。 8. **填补法**: - 当特征是连续值时,可以用均值或中位数填补(C选项正确),而离散值通常使用众数或插值方法(B选项,错误答案)。 9. **特征编码**: - 对颜色字段进行独热编码(One-Hot编码,A选项,正确答案),即将每个颜色转化为一个独立的二元变量。 10. **二维表结构**: - 表中的每一列称为一个字段(D选项,正确答案)。 11. **关系型数据库**: - MongoDB是非关系型数据库(C选项,正确答案)。 12. **KNIME组件**: - Views组件主要用来进行数据可视化(E选项,正确答案)。 13. **大数据处理关键环节**: - 数据清洗是数据分析中最重要的环节(D选项,正确答案),因为它影响到后续分析的准确性和有效性。 14. **KNIME组件的作用**: - Manipulation组件主要用于数据清洗(C选项,正确答案)。 15. **回归问题**: - 根据房屋特性预测房价属于回归问题(B选项,正确答案)。 16. **函数筛选条件**: - 函数针对第一条记录行进行编写(B选项,正确答案)。 17. **多级别分类汇总**: - 制作多级别分类汇总时,应取消替换当前分类汇总(A选项,正确答案)。 18. **按“季度”汇总数据**: - 使用数据透视表可以快速实现按季度汇总(C选项,正确答案)。 19. **得到一维表格**: - 对透视表的总计结果双击可以得到一维表格(B选项,正确答案)。 20. **数据发展趋势**: - 折线图(C选项,正确答案)能有效展示数据随时间的发展趋势。 21. **数据集基本统计信息**: - 均值描述数据的集中趋势,而不是离散程度(A选项,正确答案);标准差和方差是用来描述数据的离散程度。
- 粉丝: 2733
- 资源: 8万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助