数据的标签化管理
数据的属性标签是人类经验判断的数据,是数据后的数据。
数据的属性标签是人类经验判断的数据,是数据后的数据。例如,当你要为一件物品打上标签时,其实就已经动用了你的经验数据分析,并进行了归纳总结,结合当下的环境给出了判断。如果没有考虑环境的影响及准确性的评估,这种经验加上直觉的判断是不稳定且又难以解释的。但从数据收集的角度去看,数据的属性标签又是一个潜力极大的数据。
在数据属性的管理上,对于用户来说,每个人身上贴的标签都是多种多样的,但是对于企业来说,如何将这些标签归一,如何用一个点去将之串联,又如何把这些点连起来去描述这个用户,这才是核心问题。
比如说,你要去应聘一家公司, A公司对你的评价是“很可靠”, B公司对你的评价是“不可靠”,而 C公司准备雇用你,然后 C公司看到了 A公司和 B公司给你贴的两个标签:“可靠”和“不可靠”,它就会困惑。
这样的问题常常发生,那么,我们要怎么去做标签的管理呢?
首先,我们要明确的是,“可靠”这个概念是没有标准化意义的,除非在定义标签之前,我们就界定清楚这个“可靠”的标准是什么。否则,“可靠”的标准是准时还钱、说话算数,还是他向来都很守时,我们就无从得知了。如果这些标准是“可靠”,就给予了我们一种可以还原数据的能力。所以,在属性管理中,假如属性是“×”,那么我们一定要定义清楚什么是“×”,在没有清楚定义的情况下,这个数据的属性是毫无价值的,而且,将来你也依然不知道怎么使用这一数据。
标签在观察之后加进平台和直接加进去是不一样的。在电商平台中,就有一些标签是在观察后加进去的,如果由卖家自由地加标签进去,必然会造成混乱。所以,标签的属性管理,在运营数据中非常重要。
标签化管理,是一个非常重要的趋势。电商企业今天面对的一些问题在美国的电商企业中同样存在,可见,我们发现的问题,别人也在面对,不过这些问题并不需要现在就去解决。
属性管理的层级化十分有必要,但是在使用数据前,必须要了解数据的场景、数据是如何放进去的和数据的场景是什么。在这一切未知之前,就说数据如何好用的话,是不可能的。所以,现在企业运营数据的趋势是,我们应该找出一些属性进行归类,然后再慢慢地考虑如何提炼,这对于未来非常重要。
重要的是数据和数据之间的关系,而不是数据本身
大数据价值的实现,在于数据与数据的连接。
Google做了一件非常惊人的事情 —— Google甚至能在不明白某个网页语言的情况下,知道其内容是什么。试想一下,如果你懂俄语,看出俄语网页里在讲什么当然很简单。但是,如果你仅仅通过看字词的排列和网站的分类,就知道网页的内容,这是不是很令人惊叹?
这就是知识图谱,它是一个无穷无尽的世界。事实上,知识图谱并不是数据,而是数据和数据之间的关系。但这里有一个非常大的弊端,就是数据的储藏量非常大、储存的方法也很复杂,且稍微改变一点点关系的定义,整体就会产生巨大的变化。
比如说,有一个知识图谱在说电商平台用户之间的关系,那数据信息就非常庞大了。试想一下,今天电商平台里有多少个用户跟你有关系?假如说有 25个人,那么 25个人的关系就演变成了 25×25条关系。这时候,我再问你“什么是关系”、“见过就算关系,还是一起买过东西叫关系”的问题就具备了一定的难度。
关系建立的维度是无限大的,而且定义稍微改变一下,整个存储和整个数据库都会发生变化。所以,知识图谱的把控是有难度的。举个贴近我们生活的例子,比如说银行很早之前就给你开办了信用卡,决定银行这一决策的不是你的个人关系而是总关系。银行决定是否贷款给你,是要看你爱人做什么职业以及你家中其他人的经济情况如何。当这种种关系关联起来时,就会产生一个极为重要的知识图谱。
以往我们谈大数据时候的本钱,莫过于“我有这种数据,你没有”。在未来,数据和数据之间的关系才是重中之重,而不是单纯的数据本身。
数据的实时化与实时性分层
我们千万不要把所有的能力都用来处理实时化的问题,因为我们依然会有大量的数据需要在恰当的时机(Right Time)处理,有的数据是重要的,但不紧急。
以上讲到的很多内容都是关于数据收集和管理层面的,而在数据的处理上,我在 LinkedIn上看到了一个很有趣且有价值的做法。 LinkedIn在处理数据时,会把公司的数据服务分为几层,一方面是紧迫度,另一方面是重要不重要。比如,它会把数据分为“快数据紧急”、“快数据不紧急”和“慢数据重要”等。
我觉得对数据实时性分层的做法是合理的,而有人觉得数据的实时化处理是趋势,但是我持有一定的怀疑态度。 Real Time是“实时”,Right Time是“恰当的时机”。但是,据我看来,数据处理不一定要实时。比如,我们常见的情况是,每家公司都有财务的相关数据,这类数据的处理都是“ T+1”,意思是你想要的数据在第二天才可以拿到。因为在其他数据没有到位的情况下,数据实时化的价值也不大。
但是,换个场景来看,银行若要判断某个人的信用卡是否被盗用,那么肯定要对之进行实时化处理。数据的实时化,让我们从商业的角度去认知数据,值得注意的是,在具备了实时化的数据处理能力后,很多以前不能解决的场景开始变得能够解决。在未来的某一天,编码的工程师能够在编码时直接写上“如果一个三天前只浏览未购买的客户回来了,我要不要给他一个两元钱的红包”。这个程序是完全编好的,用户登录本身就成了一个实时标签,快速的运算会让每个网站都具备最强的时效性。
我们再换一个角度来思考,如今手机、电视、游戏机和 PC等多屏运作的时代下,作为一个网站,有多大的能力在非常快速的情况下,让自身在非常小的时间点里抓住消费者,卖出产品,这种实时的能力会在未来的商业中变得越来越重要。
一个网站必须要让自己的实时能力更高,甚至用户接下来的每一步你都应该猜到,但我们千万不要把所有的能力都用在处理实时化上,因为依然会有大量的数据需要在恰当的时机( Right Time)处理,有的数据是重要的,但不紧急。