智慧树知道大数据分析及应用-智慧树-知到-题库零氪题库答案在线查询

日期:2022-12-02 10:04:15

第一章测试

1、大数据的英文描述是( )
    A、Big data
    B、Large data
    C、Great data
    D、Heavy data

2、下面最大的储存单位是( )
    A、KB
    B、GB
    C、PB
    D、TB

3、大数据之父是( )
    A、詹姆斯·高斯林
    B、姚期智
    C、维克托·迈尔-舍恩伯格
    D、查尔斯·巴赫曼

4、大数据的特点包括( )
    A、Variety
    B、Volume
    C、Velocity
    D、Value

5、第一次正式提出大数据概念和第一次用社会调查的方式分析大数据对人们生活影响的期刊是( )和( )
    A、Cell
    B、Nature
    C、PNAS
    D、Science

6、大数据是只和互联网相关的计算机技术。

7、企业中大部分的数据都是非结构化数据。

8、大数据技术的基础是由阿里巴巴首先提出的。

9、大数据人才需要数学、统计学、数学分析、商业分析和自然语言处理的多方面的学习。

10、大数据对网络安全没有威胁。

第二章测试

1、目前,企业的数据架构存在的最大比例问题是( )
    A、资源利用率低
    B、高耗能
    C、运营成本高
    D、拓展性差

2、目前,企业数据分析处理面临的主要问题是缺少数据全方位分析方法。

3、地图导航根据以往的行程记录,绘制了最优路程,标明了可能堵车的地点,这表现了大数据分析理念中的( )
    A、注重相关性而不是因果性
    B、注重全体而不是局部
    C、注重效率而不是准确
    D、注重相对性而不是绝对性

4、最早提出大数据研发计划的国家是( )
    A、中国
    B、美国
    C、日本
    D、法国

5、大数据可能被运用的行业有( )
    A、农业
    B、金融
    C、医疗
    D、教育

6、2015年9月18日云南省启动我国首个大数据综合试验区的建设工作。

7、大数据的价值密度很高。

8、日本政府将IT产业,尤其是大数据及云计算作为促进经济增长,解决内部矛盾一个关键。

9、非结构化数据对企业也富有价值。

10、企业的日数据生成量可达到1TB。

第三章测试

1、HDFS中文件存储的基本节点是( )
    A、DataNode
    B、BaseNode
    C、NameNode
    D、WholeNode

2、下面不属于ETL的功能是( )
    A、转换
    B、翻译
    C、加载
    D、抽取

3、自然语言处理的范畴包括( )
    A、中文自动分词
    B、机器翻译
    C、离群值检测
    D、关联分析

4、Apache Hadoop所涉及的核心技术包括( )
    A、Hbase
    B、EMC
    C、HDFS
    D、MapReduce

5、HDFS的主要结构包括( )
    A、NameNode
    B、DataNode
    C、Client
    D、Server

6、下列算法中属于聚类算法的是( )
    A、K-means
    B、DBSCAN
    C、Apriori
    D、k-distance

7、Hadoop可以运行在任何普通的PC机上。

8、Client是获取分布式文件的应用程序

9、Hadoop是一种集中式存储和计算技术。

10、聚类之前的样本没有类别

第四章测试

1、Modeler在2009年被( )收购后对产品的性能和功能进行了大幅度的改进和提升。
    A、IBM
    B、微软
    C、谷歌
    D、苹果

2、Modeler数据挖掘功能将复杂的统计方法和( )技术结合到一起。
    A、信息安全
    B、大数据
    C、软件工程
    D、机器学习

3、Modeler可以将模型保存为( )的通用格式,支持对其进行二次开发。
    A、CKPT
    B、PB
    C、PMML
    D、PKL

4、下面( )是基本数据流的节点。
    A、变量文件节点
    B、导入节点
    C、选择节点
    D、导出节点

5、Modeler中的常用节点选项面板包括:( )。
    A、源
    B、记录选项
    C、字段选项
    D、建模选项
    E、图形选项

6、Modeler和Statistics是相互独立的两个数据分析软件。

7、Modeler可以对可变长度记录进行数据的处理。

8、Modeler能通过第三方提供开放的ODBC与其他数据库连接。

9、Modeler不支持生成散点图、分布图等来反映数据的特征。

10、Modeler支持数据挖掘CRISP-DM的标准流程。

第五章测试

1、协方差分析中,如果两个变量的变化趋势一致,那么这两个变量之间的协方差就是( )。
    A、正值
    B、负值
    C、0
    D、不清楚

2、在抽样调查中,如果样本数量N为( )时,就称为大样本。
    A、N>=20
    B、N>=30
    C、N>=50
    D、N>=100

3、在统计调查中,( )误差是由观察、测量或计算等原因所造成的。
    A、系统误差
    B、随机性误差
    C、抽样误差
    D、登记性误差

4、常见的数据变换操作包括( )。
    A、平滑
    B、聚集
    C、规范化
    D、数据规约
    E、属性构造

5、平滑处理在科学研究中广泛使用,常用方法有( )。
    A、聚类法
    B、滤波法
    C、加权移动平均
    D、单纯移动平均

6、维数归约的主要方法有( )。
    A、逐步向前选择
    B、逐步向后删除
    C、逐步向前删除
    D、逐步向后选择

7、抽样极限又称置信区间,是指一定概率下抽样误差的真实范围。

8、数据规约是指在尽可能保持数据原貌的前提下,最大限度地精简属性数量。

9、聚集也称为数据汇总,用来构建数据立方体。

10、在概率论和统计学中,协方差用于衡量两个变量的平均误差。

第六章测试

1、在计算机领域,( )用来描述数据的起源或者出处。
    A、溯源
    B、缘由
    C、来源
    D、源头

2、由于采集设备异常,造成接收的数据取值不合理,是属于( )类型的数据质量问题。
    A、空值
    B、数据失效
    C、噪声数据
    D、缺少完整性约束

3、数据质量的相关技术中,( )被用来检查文件系统或者数据库中数据的过程。
    A、数据采集
    B、数据剖析
    C、数据集成
    D、数据清洁

4、在四种数据集成技术中,( )技术可以实现对各个数据源数据的抽取、清洗、转换和复制。
    A、联邦数据库系统结构
    B、基于中间件的数据集成模型
    C、基于数据仓库的数据集成模型
    D、MPP 数据库存储与处理架构

5、数据剖析的分类是( )。
    A、结构化数据
    B、多源数据
    C、单源数据
    D、非结构化数据

6、针对“空值”的数据清洁方法有( )。
    A、人工填写
    B、全局变量填充
    C、均值填充
    D、概率统计值填充

7、数据溯源追踪的主要方法有标注法和反向查询法。

8、AHP质量评估方法一般是应用于质量指标权重值的确定。

9、数据质量的定性评估主要依靠支持者的主观判断。

10、综合评估方法结合了定性评估和定量评估的优点,适用范围更广泛。

第七章测试

1、使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的( )任务?
    A、探索性数据分析
    B、建模描述
    C、预测建模
    D、寻找模式和规则

2、英文单词缩写KDD表示( )含义?
    A、数据挖掘与知识发现
    B、领域知识发现
    C、文档知识发现
    D、动态知识发现

3、以下( )操作会降低Apriori算法的挖掘效率。
    A、支持度阈值增大
    B、项数减少
    C、事务数减少
    D、减小硬盘读写速率

4、寻找数据集中的关系是为了寻找精确、方便并且有价值地总结出数据的某一特征的表示,这个过程包括了以下( )步骤?
    A、选择一个算法过程使评分函数最优
    B、决定如何量化和比较不同表示拟合数据的好坏
    C、决定要使用的表示的特征和结构
    D、决定用什么样的数据管理原则以高效地实现算法

5、下面列出的条目中,( )是数据仓库的基本特征。
    A、数据仓库是面向主题的
    B、数据仓库的数据是集成的
    C、数据仓库的数据是相对稳定的
    D、数据仓库的数据是反映历史变化的
    E、数据仓库是面向事务的

6、关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

7、给定关联规则AàB,意味着:若A发生,B也会发生。

8、Apriori算法产生的关联规则总是确定的

9、对于项集来说,置信度没有意义。

10、数据挖掘的目标不在于数据采集策略,而在于对于已经存在的数据进行模式的发掘。

第八章测试

1、关于相关系数,下面不正确的描述是
    A、当0≤|r|≤1时,表示两变量不完全相关
    B、当r=0时,表示两变量间无相关
    C、两变量之间的相关关系是单相关
    D、如果自变量增长引起因变量的相应增长,就形成正相关关系

2、当x按一定数额增加时,y也近似地按一定数额随之增加,那么可以说x与y之间存在( )关系
    A、直线正相关
    B、直线负相关
    C、曲线正相关
    D、曲线负相关

3、评价直线相关关系的密切程度,当r在0.5~0.8之间时,表示( )。
    A、无相关
    B、低度相关
    C、中等相关
    D、高度相关

4、身高和体重之间的关系是( )
    A、函数关系
    B、无关系
    C、共变关系
    D、严格的依存关系

5、下列关系中,属于正相关关系的是( )
    A、身高与体重
    B、产品与单位成本
    C、正常商品的价格和需求量
    D、商品的零售额和流通费率

6、当所有的观察值y都落在直线 yc=a+bx上时,则x与y之间的相关系数为( )
    A、r=0
    B、r=1
    C、-1<1
    D、0<1

7、两变量X和Y的相关系数为0.8,则其回归直线的判定系数为( )
    A、0.5
    B、0.8
    C、0.64
    D、0.9

8、在完成了构造与评价一个回归模型后,我们可以( )
    A、估计未来所需样本的容量
    B、计算相关系数和判定系数
    C、以给定的因变量的值估计自变量的值
    D、以给定的自变量的值估计因变量的值

9、在回归分析中,两个变量( )
    A、都是随机变量
    B、都不是随机变量
    C、自变量是随机变量
    D、因变量是随机变量

10、以下指标恒为正的是( )
    A、相关系数r
    B、截距a
    C、斜率b
    D、复相关系数

第九章测试

1、科学可视化主要关注的是( )维现象的可视化。
    A、一维
    B、二维
    C、三维
    D、N维

2、不同用户对数据可视化的认知有所区别,设计人员认为可视化是( )。
    A、表述想法的工具
    B、信息编码方式
    C、漂亮的视觉表现
    D、用户情感的表示

3、作为电商企业,以下( )图可以有效地提供不同商品的销售和趋势情况。
    A、热力图
    B、条形图和线图的组合图
    C、气泡图
    D、平行坐标图

4、数据可视化分为( )与( )两个方向。
    A、内容可视化
    B、科学可视化
    C、图像可视化
    D、信息可视化

5、下面属于数据类别的是( )。
    A、数量
    B、关系
    C、位置
    D、序列

6、数据可视化是借助于图形化手段,清晰有效地传达与沟通信息。

7、气泡图只能够表示3个变量之间的关系。

8、平行坐标图是利用色块大小,颜色来传达信息的。

9、热力图实现了同类型下以及不同类型下子集大小的比较。

10、数据可视化的挖掘阶段是指应用统计或数据挖掘方法来辨析数据格式,或者是把数据置于一个数据的环境中。

第十章测试

1、智能交通系统(Intelligent Transportation System,简称ITS)是未来交通系统的发展方向,它是将先进的信息技术、数据通讯传输技术、电子传感技术、控制技术及计算机技术等有效地集成运用于整个地面交通管理系统而建立的一种在大范围内、全方位发挥作用的,实时、准确、高效的综合交通运输管理系统。