好好学习
天天向上

大数据特征包括哪些

大家都在说大数据,听起来好像很高深,其实拆开来看就那么回事。最早的时候,人们总结了3个“V”来描述它,后来觉得不够精确,又加了两个,现在普遍说的是“5V”特征。

第一个V:Volume(大量)

这一点最好理解,就是数据量真的很大。 以前我们说数据,可能用G或者T来计算,现在不行了。对于大公司来说,每天产生的数据都是P(1024T)甚至E(1024P)这个级别的。 就拿你我每天都在用的社交媒体来说,脸书(Facebook)一天产生的日志数据超过300TB。 国内的淘宝,好几亿用户,每天交易产生的数据也有20TB左右。 还有,一个中型城市的交通监控视频,一天就能产生几十个T的数据量。 把这些数据打印成A4纸,数量能绕地球好几圈了。传统的电脑硬盘和数据库软件根本存不下,也处理不了这么大的数据量,所以才需要新的技术。

第二个V:Variety(多样)

以前我们处理的数据,大多是“结构化”的,就像Excel表格一样,一行一行,一列一列,整整齐齐。 但现在的数据来源五花八门,种类特别多。 你发的微信朋友圈(文字、图片、小视频)、淘宝的客服聊天记录(语音、文字)、你听的音乐、你看的视频、汽车上的各种传感器数据、网站的点击日志等等,这些都是数据。

这些数据可以分成三大类:

结构化数据:就是上面说的,像数据库里的表格数据,格式统一,处理起来最简单。

半结构化数据:比如网页代码或者JSON文件,它们有一定的格式,但又不像表格那么规整。

非结构化数据:这是大数据里占比最大的一部分,据说能占到80%以上。 像邮件、视频、图片、语音、PDF文档这些,都没有固定的格式,处理起来最麻烦,需要专门的技术去提取里面的有效信息。

要把这么多不同类型的数据放在一起分析,挑战很大。

第三个V:Velocity(高速)

这个“高速”有两层意思:数据产生的速度快,和数据处理的速度要求快。 物联网设备、社交媒体、金融交易等,每时每刻都在产生新的数据。 比如金融领域的股票交易,数据是实时变化的,晚一秒钟,情况可能就完全不同了。电商搞促销活动,需要实时分析用户的点击行为,立刻调整推荐的商品。

所以,对大数据的处理也要求快,业界甚至有个“1秒定律”的说法,意思就是得能快速从各种数据里拿到有价值的信息。 这就要求处理技术不能再像以前那样慢慢地批量处理,而是要能做到流处理,数据一边产生,一边就被分析了。

第四个V:Value(价值)

数据量再大,种类再多,如果不能产生价值,那也没用。 但大数据的价值有个特点,就是“价值密度低”。 想象一下,一整天的监控录像可能有几个T,但真正有用的可能就是发生事故那几秒钟的画面。 这就好像在巨大的沙堆里找金子,虽然金子很少,但找到了就价值连城。

从海量、杂乱的数据中提取出对商业决策、科学研究有用的信息,这才是大数据最终的目标。 比如,电商平台通过分析你的购买和浏览记录,给你推荐你可能喜欢的商品,这就是数据价值的体现。 现在很多人把大数据比作新的“石油”或“黄金”,就是因为它蕴含着巨大的商业价值。

第五个V:Veracity(真实性)

这个V是后来加上的,强调的是数据的准确性和可靠性。 数据来源那么复杂,质量自然也就参差不齐。 比如,社交媒体上有很多虚假信息,用户自己填写的数据也可能不准确,传感器数据也可能因为设备故障而出错。

如果用一堆不准确的“脏数据”去分析,那得出的结论肯定是错的,甚至会误导决策。所以在分析之前,需要对数据进行清洗和验证,确保它的真实可靠。 这是一个挺重要但又很容易被忽略的环节。

总的来说,大数据就是这五个“V”的综合体现。它不是一个单一的技术,而是一个涵盖了数据采集、存储、处理、分析和应用的一整套东西。理解了这几个特征,也就明白了为什么大数据和我们以前说的数据不是一回事了。

赞(0)
未经允许不得转载:七点爱学 » 大数据特征包括哪些

评论 抢沙发

评论前必须登录!

立即登录   注册