好好学习
天天向上

大数据具有什么的特征

很多人一听大数据,就觉得是“很多很多的数据”。这话只说对了一半。如果只是多,那叫海量数据,离大数据还差得远。大数据这个词,背后其实说的是一套完全不同的处理数据的方式和思路。它有几个很典型的特征,圈内人喜欢用几个V开头的英文单词来概括,今天我就用大白话给你说明白。

第一个特征,叫Volume,就是量大。
这个“大”不是一般的大。以前我们说数据大,可能是指一个几百兆的Excel表格,或者一个GB级别的数据库。现在说大数据,单位都是TB(1TB=1024GB)、PB(1PB=1024TB)起步,甚至到了EB、ZB。你可能对这些单位没概念,我举个例子。一部高清电影差不多2GB,1PB的数据就相当于50万部高清电影。像抖音、淘宝这种平台,每天产生的新数据,就是用PB来计算的。

你刷短视频的每一次上滑、点赞、评论、转发,甚至在某个视频上停留了几秒,这些全都是数据。把全国几亿人每天的行为记录下来,这个数据量是过去任何一个时代都无法想象的。我刚入行的时候,处理一个客户关系管理系统的数据,整个公司几年的数据也就几个G,一台好点的电脑就能跑。现在不行了,一个电商平台一小时的用户行为日志,你用Excel去打开,它会直接卡死,根本打不开。这就是量的区别,它已经大到单台计算机处理不了的程度,必须用成百上千台服务器组成的集群来分工合作。

第二个特征,叫Velocity,就是速度快。
这个好理解,数据产生得快,处理也得快。你想想现在的场景,很多事情要求实时反馈。就拿打车软件来说,你一打开APP,它要立刻根据你的位置、周围的车辆、实时路况,给你匹配一辆车,并且估算出价格和到达时间。这个过程如果慢了半分钟,你可能就换别的软件了。

数据就像一条奔流不息的河,是持续不断进来的。股票交易市场,每秒钟都有无数笔交易发生,价格瞬息万变。做高频交易的,甚至要以微秒为单位来分析数据做决策。还有像“双十一”那样的购物节,零点一到,瞬间涌入的订单数据、支付数据、库存数据,后台系统必须在零点几秒内处理完,不然整个系统就崩了。这种对速度的要求,是传统数据处理方式满足不了的。以前我们可以等数据都收集好了,晚上或者周末再跑一次报表。现在不行,数据来了就得马上处理,马上拿出结果。

第三个特征,叫Variety,就是类型多。
这是大数据和传统数据一个很大的不同点。以前的数据,大多是“结构化”的。什么叫结构化?就是像Excel表格那样,整整齐齐,每一行、每一列都有明确的定义。比如你的个人信息,姓名、年龄、性别、地址,都很规整。

但现在的数据来源太多了,五花八门。你发的微博、朋友圈,里面有文字、图片、表情包,可能还有视频和地理位置,这就是“非结构化”数据。你和淘宝客服的聊天记录,是文本。你家门口摄像头拍下的影像,是视频流。你戴的智能手表记录的心率、步数,是时间序列数据。这些数据的格式完全不一样,没法简单地放进一个数据库表格里。

处理这些混杂在一起的数据,技术上就复杂多了。你需要先从图片里识别出物体,从语音里识别出文字,从大段的文本里提取出关键信息。可以说,大数据技术很大一部分精力,都花在了怎么把这些乱七-八糟的非结构化、半结构化数据,变成机器能看懂、能分析的东西。

第四个特征,叫Veracity,指的是数据的真实性。
数据量大了,里面鱼龙混杂,什么都有。错误数据、虚假数据、甚至是有人故意制造的垃圾数据,会非常多。所以,数据的质量就成了一个大问题。

比如,电商网站上的商品评论,有多少是真实用户体验,有多少是商家刷的好评,或者对手刷的差评?如果你是一个数据分析师,老板让你根据用户评论来改进产品,但你拿到的数据一半都是假的,那你的分析结果不仅没用,还可能把公司带到沟里去。

还有物联网设备传回来的数据。一个传感器可能因为没电了、信号不好了,或者本身出了故障,传回来一些异常值。比如,一个监测室外温度的设备,突然报了一个零下200度的值,这显然是错的。在分析之前,你必须先把这些“脏数据”清洗掉。所以,在大数据项目里,数据清洗和预处理的工作量,经常会占到整个项目60%以上的时间。保证数据的准确和可信,是后面一切分析的基础。

最后,也是最重要的一个特征,叫Value,价值。
搞那么多数据,花那么多钱买服务器、招工程师,不是为了把数据存起来看的。最终目的是要从里面挖出价值。数据本身不值钱,从数据里提炼出的信息、知识和洞察力才值钱。

但大数据的价值密度很低。就像挖金矿,可能要处理一吨的矿石,最后才能提炼出几克黄金。数据也是一样,海量的数据里,真正有价值的信息可能就那么一点点。

最常见的例子就是推荐系统。购物网站怎么知道你可能喜欢什么?它会分析你过去买过什么、浏览过什么、搜索过什么(Volume),并且实时捕捉你现在正在看的商品(Velocity),再结合商品的图片、描述、其他用户的评论(Variety),筛掉一些看起来像刷单的无效数据(Veracity),最后在首页给你推荐一个你很可能想买的东西。这个推荐结果,就是从数据里提炼出的价值(Value)。

再比如,城市交通管理部门可以通过分析手机信令数据和道路监控数据,掌握人群的流动规律和交通拥堵点,然后据此来优化红绿灯时长、调整公交线路。这就是把数据变成了改善城市运行效率的决策依据。如果没有价值这个最终目标,前面那四个V就都失去了意义。

赞(0)
未经允许不得转载:七点爱学 » 大数据具有什么的特征

评论 抢沙发

评论前必须登录!

立即登录   注册