大数据是一种趋势,它涉及到数据的爆发式增长和社会化趋势。这种数据增长不仅体现在数量上,也体现在数据类型的多样化上,包括文本、图像、视频和机器数据。大数据的背景还涉及到了新摩尔定律,即数据的增长速度超过了传统存储介质的处理速度。此外,大数据已经成为了像自然资源一样的重要资产,尤其是机器数据的重要性日益突出。不过,如果大数据没有得到有效的利用,它反而会成为一种成本。
在讨论大数据的特性时,人们经常提到大数据的4V特性,即体量(Volume)、多样性(Variety)、价值密度(Value)和速度(Velocity)。体量指的是大数据的规模巨大,多样性则意味着数据形式的多元化,价值密度指的是数据中含有的有价值信息密度较低,而速度则强调了对数据进行实时处理和分析的重要性。
根据奥巴马政府于2012年发布的美国政府大数据计划,大数据战略旨在通过提升对复杂数字数据集中知识和见解的提取能力,以促进科学研究和工程学的进步,加强国家安全,并且转变教学和研究。
拓尔思信息技术股份有限公司的观点认为大数据比云计算更为实际,因为大数据不仅仅是规模上的“大”。它还强调了软件的重要性,认为软件是大数据的引擎,并指出大数据的应用领域远不止精准营销。尽管大数据的管理相对容易,但理解大数据的真正含义却很困难。非结构化数据的理解仍缺乏突破,这是大数据资源化、知识化和普适化的关键所在。为此,需要利用自然语言理解、多媒体内容理解、机器学习等技术处理非结构化的海量信息。
拓尔思公司还介绍了其大数据产品布局和应用实践。例如,TRS机器数据挖掘引擎、TRSSMAS舆情云服务、TRS大数据管理系统V7.0等产品,它们代表了大数据生态中的软件力量,揭示了大数据处理和应用在不同行业中的潜力,包括金融、消费、医疗、食品、军事、交通、环保、电子商务、气象等领域。
在大数据实践中,拓尔思信息技术股份有限公司提出了一些建议和观点。大数据不仅仅是数据量大,它还包括数据的复杂性,有时小数据也能产生巨大影响,如一条微博。尽管大数据在应用上有其局限性,但其在公共服务等多个领域的应用前景广泛。大数据的理解比管理要困难得多,大数据的管理需要考虑架构和并行处理,而真正有意义的数据理解则需要在数据内容理解上有所突破。
大数据涉及的不仅是技术或规模问题,更是对数据本身及其背后价值的深度挖掘和理解。随着技术的不断进步,大数据的处理和应用将更加广泛和深入,对社会发展和科学研究产生深远的影响。