[详细完整版]大数据介绍.doc
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
【大数据基本概念】 大数据(Big Data)是指数据集的大小远超出传统软件工具在合理时间内进行处理、管理和存储的能力。这种概念的出现是由于现有的存储模式和计算能力无法应对不断增长的数据集规模。大数据的预处理是数据分析的重要环节,包括数据的抽取、清洗等步骤。 1. **数据抽取**:在大数据环境中,数据来源多样,结构复杂,数据抽取是为了将这些不同格式的数据转换成统一格式,便于进一步分析和处理。 2. **数据清洗**:清洗过程主要是去除无用或错误的数据,如噪声和异常值,确保分析使用的数据准确有效。 【大数据的数学问题】 在数学角度,大数据涉及几个关键问题: 1. **大数据采样**:如何从大规模数据集中选取小规模样本,同时保持采样结果的代表性,这对算法的误差影响至关重要。 2. **大数据表示**:数据的存储方式和表示形式影响着处理效率和存储需求。 3. **大数据不一致性**:数据不一致可能导致算法失效或无法找到解,需要解决不一致性问题。 4. **超高维问题**:高维度数据可能导致稀疏性增加,算法复杂度也随之提高。 5. **不确定维问题**:多维度数据并存,确定合适的维度是一项挑战。 6. **不适定性问题**:高维可能导致解的过多,难以做出决策。 【大数据的特征】 1. **稠密与稀疏共存**:数据集既包含局部密集区域,也有全局稀疏部分。 2. **冗余与缺失**:大量冗余数据与局部缺失并存。 3. **显式与隐式**:大量显性数据与丰富的隐性信息共同存在。 4. **静态与动态**:数据既包含静态关联,也存在动态演变。 5. **多元与异质**:数据多样化且多变,同时具有异质性。 6. **量大与可用性矛盾**:大数据的庞大体积与实际可用信息的稀少形成对比。 【大数据悖论】 大数据既是科学探索的新范式,也是非竞争性的生产要素。尽管大数据能预测未来趋势和解决社会难题,但目前的应用仍局限于历史和实时数据的关联分析。大数据的发展受限于方法论的缺失,尤其是在思维和方法论层面。跨越学术和技术鸿沟的方法论尚未成熟。 【大数据的市场阶段与鸿沟** 大数据经历了萌芽期、炒作期,现在正面临低谷期,即将进入主流市场。早期市场与主流市场之间的鸿沟是最具挑战性的,需要成熟的技术方案和成功案例来吸引早期大众,以及确保数据安全和广泛的社会应用来吸引后期大众。金融、能源、电信等行业通常是大数据的早期采用者,而环境、能源、健康等领域则需要更安全可靠的数据保障和广泛的社会应用基础。
剩余27页未读,继续阅读
- 粉丝: 189
- 资源: 3万+
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助