知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来,它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内,互联网巨头百度和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比,对处于当今风口浪尖上的行业 - 互联网金融, 知识图谱可以有哪方面的应用呢?
目录
1. 什么是知识图谱?
2. 知识图谱的表示
3. 知识图谱的存储
4. 应用
5. 挑战
6. 结语
1. 什么是知识图谱?
知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。
知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。
另外,对于稍微复杂的搜索语句比如 ”Who is the wife of Bill Gates“,Google能准确返回他的妻子Melinda Gates。这就说明搜索引擎通过知识图谱真正理解了用户的意图。
上面提到的知识图谱都是属于比较宽泛的范畴,在通用领域里解决搜索引擎优化和问答系统(Question-Answering)等方面的问题。接下来我们看一下特定领域里的 (Domain-Specific) 知识图谱表示方式和应用,这也是工业界比较关心的话题。
2. 知识图谱的表示
假设我们用知识图谱来描述一个事实(Fact) - “张三是李四的父亲”。这里的实体是张三和李四,关系是“父亲”(is_father_of)。当然,张三和李四也可能会跟其他人存在着某种类型的关系(暂时不考虑)。当我们把电话号码也作为节点加入到知识图谱以后(电话号码也是实体),人和电话之间也可以定义一种关系叫 has_phone,就是说某个电话号码是属于某个人。下面的图就展示了这两种不同的关系。
另外,我们可以把时间作为属性(Property)添加到 has_phone 关系里来表示开通电话号码的时间。这种属性不仅可以加到关系里,还可以加到实体当中,当我们把所有这些信息作为关系或者实体的属性添加后,所得到的图谱称之为属性图 (Property Graph)。属性图和传统的RDF格式都可以作为知识图谱的表示和存储方式,但二者还是有区别的,这将在后面章节做简单说明。
3. 知识图谱的存储
知识图谱是基于图的数据结构,它的存储方式主要有两种形式:RDF存储格式和图数据库(Graph Database)。至于它们有哪些区别,请参考【1】。下面的曲线表示各种数据存储类型在最近几年的发展情况。从这里我们可以明显地看到基于图的存储方式在整个数据库存储领域的飞速发展。这幅曲线图来源于 Graph DBMS increased their popularity by 500% within the last 2 years
下面的列表表示的是目前比较流行的基于图存储的数据库排名。从这个排名中可以看出neo4j在整个图存储领域里占据着NO.1的地位,而且在RDF领域里Jena还是目前为止最为流行的存储框架。这部分数据来源于 DB-Engines Ranking
当然,如果需要设计的知识图谱非常简单,而且查询也不会涉及到1度以上的关联查询,我们也可以选择用关系型数据存储格式来保存知识图谱。但对那些稍微复杂的关系网络(现实生活中的实体和关系普遍都比较复杂),知识图谱的优点还是非常明显的。首先,在关联查询的效率上会比传统的存储方式有显著的提高。当我们涉及到2,3度的关联查询,基于知识图谱的查询效率会高出几千倍甚至几百万倍。其次,基于图的存储在设计上会非常灵活,一般只需要局部的改动即可。比如我们有一个新的数据源,我们只需要在已有的图谱上插入就可以。于此相反,关系型存储方式灵活性方面比较差,它所有的Schema都是提前定义好的,如果后续要改变,它的代价是非常高的。最后,把实体和关系存储在图数据结构是一种符合整个故事逻辑的最好的方式。
4. 应用
在本文中,我们主要讨论知识图谱在互联网金融行业中的应用。当然,很多应用场景和想法都可以延伸到其他的各行各业。这里提到的应用场景只是冰山一角, 在很多其他的应用上,知识图谱仍然可以发挥它潜在的价值, 我们在后续的文章中会继续讨论。
反欺诈
反欺诈是风控中非常重要的一道环节。基于大数据的反欺诈的难点在于如何把不同来源的数据(结构化,非结构)整合在一起,并构建反欺诈引擎,从而有效地识别出欺诈案件(比如身份造假,团体欺诈,代办包装等)。而且不少欺诈案件会涉及到复杂的关系网络,这也给欺诈审核带来了新的挑战。 知识图谱,作为关系的直接表示方式,可以很好地解决这两个问题。 首先,知识图谱提供非常便捷的方式来添加新的数据源,这一点在前面提到过。其次,知识图谱本身就是用来表示关系的,这种直观的表示方法可以帮助我们更有效地分析复杂关系中存在的特定的潜在风险。
反欺诈的核心是人,首先需要把与借款人相关的所有的数据源打通,并构建包含多数据源的知识图谱,从而整合成为一台机器可以理解的结构化的知识。在这里,我们不仅可以整合借款人的基本信息(比如申请时填写的信息),还可以把借款人的消费记录、行为记录、网上的浏览记录等整合到整个知识图谱里,从而进行分析和预测。这里的一个难点是很多的数据都是从网络上获取的非结构化数据,需要利用机器学习、自然语言处理技术把这些数据变成结构化的数据。
不一致性验证
不一致性验证可以用来判断一个借款人的欺诈风险,这个跟交叉验证类似。比如借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。
再比如,借款人说跟张三是朋友关系,跟李四是父子关系。当我们试图把借款人的信息添加到知识图谱里的时候,“一致性验证”引擎会触发。引擎首先会去读取张三和李四的关系,从而去验证这个“三角关系”是否正确。很显然,朋友的朋友不是父子关系,所以存在着明显的不一致性。
不一致性验证涉及到知识的推理。通俗地讲,知识的推理可以理解成“链接预测”,也就是从已有的关系图谱里推导出新的关系或链接。 比如在上面的例子,假设张三和李四是朋友关系,而且张三和借款人也是朋友关系,那我们可以推理出借款人和李四也是朋友关系。
组团欺诈
相比虚假身份的识别,组团欺诈的挖掘难度更大。这种组织在非常复杂的关系网络里隐藏着,不容易被发现。当我们只有把其中隐含的关系网络梳理清楚,才有可能去分析并发现其中潜在的风险。知识图谱,作为天然的关系网络的分析工具,可以帮助我们更容易地去识别这种潜在的风险。举一个简单的例子,有些组团欺诈的成员会用虚假的身份去申请贷款,但部分信息是共享的。下面的图大概说明了这种情形。从图中可以看出张三、李四和王五之间没有直接的关系,但通过关系网络我们很容易看出这三者之间都共享着某一部分信息,这就让我们马上联想到欺诈风险。虽然组团欺诈的形式众多,但有一点值得肯定的是知识图谱一定会比其他任何的工具提供更佳便捷的分析手段。
异常分析(Anomaly Detection)
异常分析是数据挖掘研究领域里比较重要的课题。我们可以把它简单理解成从给定的数据中找出“异常”点。在我们的应用中,这些”异常“点可能会关联到欺诈。既然知识图谱可以看做是一个图 (Graph),知识图谱的异常分析也大都是基于图的结构。由于知识图谱里的实体类型、关系类型不同,异常分析也需要把这些额外的信息考虑进去。大多数基于图的异常分析的计算量比较大,可以选择做离线计算。在我们的应用框架中,可以把异常分析分为两大类: 静态分析和动态分析,后面会逐一讲到。
- 静态分析
所谓的静态分析指的是,给定一个图形结构和某个时间点,从中去发现一些异常点(比如有异常的子图)。下图中我们可以很清楚地看到其中五个点的相互紧密度非常强,可能是一个欺诈组织。所以针对这些异常的结构,我们可以做出进一步的分析。
- 动态分析
所谓的动态分析指的是分析其结构随时间变化的趋势。我们的假设是,在短时间内知识图谱结构的变化不会太大,如果它的变化很大,就说明可能存在异常,需要进一步的关注。分析结构随时间的变化会涉及到时序分析技术和图相似性计算技术。有兴趣的读者可以去参考这方面的资料【2】。
失联客户管理
除了贷前的风险控制,知识图谱也可以在贷后发挥其强大的作用。比如在贷后失联客户管理的问题上,知识图谱可以帮助我们挖掘出更多潜在的新的联系人,从而提高催收的成功率。
现实中,不少借款人在借款成功后出现不还款现象,而且玩“捉迷藏”,联系不上本人。即便试图去联系借款人曾经提供过的其他联系人,但还是没有办法联系到本人。这就进入了所谓的“失联”状态,使得催收人员也无从下手。那接下来的问题是,在失联的情况下,我们有没有办法去挖掘跟借款人有关系的新的联系人? 而且这部分人群并没有以关联联系人的身份出现在我们的知识图谱里。如果我们能够挖掘出更多潜在的新的联系人,就会大大地提高催收成功率。举个例子,在下面的关系图中,借款人跟李四有直接的关系,但我们却联系不上李四。那有没有可能通过2度关系的分析,预测并判断哪些李四的联系人可能会认识借款人。这就涉及到图谱结构的分析。
智能搜索及可视化展示
基于知识图谱,我们也可以提供智能搜索和数据可视化的服务。智能搜索的功能类似于知识图谱在Google, Baidu上的应用。也就是说,对于每一个搜索的关键词,我们可以通过知识图谱来返回更丰富,更全面的信息。比如搜索一个人的身份证号,我们的智能搜索引擎可以返回与这个人相关的所有历史借款记录、联系人信息、行为特征和每一个实体的标签(比如黑名单,同业等)。另外,可视化的好处不言而喻,通过可视化把复杂的信息以非常直观的方式呈现出来, 使得我们对隐藏信息的来龙去脉一目了然。
精准营销
“A knowledge graph allows you to take core information about your customer—their name, where they reside, how to contact them—and relate it to who else they know, how they interact on the web, and more”-- Michele Goetz, a Principal Analyst at Forrester Research
一个聪明的企业可以比它的竞争对手以更为有效的方式去挖掘其潜在的客户。在互联网时代,营销手段多种多样,但不管有多少种方式,都离不开一个核心 - 分析用户和理解用户。知识图谱可以结合多种数据源去分析实体之间的关系,从而对用户的行为有更好的理解。比如一个公司的市场经理用知识图谱来分析用户之间的关系,去发现一个组织的共同喜好,从而可以有针对性的对某一类人群制定营销策略。只有我们能更好的、更深入的(Deep understanding)理解用户的需求,我们才能更好地去做营销。
5. 挑战
知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展,但很多仍处于调研阶段。主要的原因是很多企业对知识图谱并不了解,或者理解不深。但有一点可以肯定的是,知识图谱在未来几年内必将成为工业界的热门工具,这也是从目前的趋势中很容易预测到的。当然,知识图谱毕竟是一个比较新的工具,所以在实际应用中一定会涉及到或多或少的挑战。
数据的噪声
首先,数据中存在着很多的噪声。即便是已经存在库里的数据,我们也不能保证它有100%的准确性。在这里主要从两个方面说起。第一,目前积累的数据本身有错误,所以这部分错误数据需要纠正。 最简单的纠正办法就是做离线的不一致性验证,这点在前面提过。第二, 数据的冗余。比如借款人张三填写公司名字为”普惠“,借款人李四填写的名字为”普惠金融“,借款人王五则填写成”普惠金融信息服务有限公司“。虽然这三个人都隶属于一家公司,但由于他们填写的名字不同,计算机则会认为他们三个是来自不同的公司。那接下来的问题是,怎么从海量的数据中找出这些存在歧义的名字并将它们合并成一个名字? 这就涉及到自然语言处理中的”消歧分析”技术。
非结构化数据处理能力
在大数据时代,很多数据都是未经处理过的非结构化数据,比如文本、图片、音频、视频等。特别在互联网金融行业里,我们往往会面对大量的文本数据。怎么从这些非结构化数据里提取出有价值的信息是一件非常有挑战性的任务,这对掌握的机器学习,数据挖掘,自然语言处理能力提出了更高的门槛。
知识推理
推理能力是人类智能的重要特征,使得我们可以从已有的知识中发现隐含的知识, 一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”,可以推理出“朋友”关系,“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友,那我们可以推测张三和李四也很有可能是朋友关系。当然,这里会涉及到概率的问题。当信息量特别多的时候,怎么把这些信息(side information)有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑(Logic) 的推理和基于分布式表示方法(Distributed Representation)的推理。随着深度学习在人工智能领域的地位变得越来越重要,基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。
大数据、小样本、构建有效的生态闭环是关键
虽然现在能获取的数据量非常庞大,我们仍然面临着小样本问题,也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统,我们首先需要一些欺诈样本。但实际上,我们能拿到的欺诈样本数量不多,即便有几百万个贷款申请,最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移,我们必然会收集到更多的样本,但样本的增长空间还是有局限的。这有区别于传统的机器学习系统,比如图像识别,不难拿到好几十万甚至几百万的样本。
在这种小样本条件下,构建有效的生态闭环尤其的重要。所谓的生态闭环,指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型,并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统,我们不仅要完善已有的数据流系统,而且要深入到各个业务线,并对相应的流程进行优化。这也是整个反欺诈环节必要的过程,我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。
6. 结语
知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用,知识图谱还可以应用在权限管理,人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。
参考文献
【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... &Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.
【2】User Behavior Tutorial
【3】刘知远 知识图谱——机器大脑中的知识库 第二章 知识图谱——机器大脑中的知识库
【4】Nickel, M., Murphy, K., Tresp, V., &Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.
【5】Socher, R., Chen, D., Manning, C. D., &Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).
【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., &Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).
【7】Jenatton, R., Roux, N. L., Bordes, A., &Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).
1月10日,由EpiK铭识协议主办的“2021开源知识运动”主题活动为业界带来了一场知识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席/著名知识图谱专家/OpenKG主要发起人王昊奋、东北大学自然语言处理实验室副主任/小牛思拓创始人王会珍在内的重量级嘉宾参与。
在此次大会上,EpiK中国区负责人Eric Yao 做了《分布式知识图谱构建》的主题演讲,其中他重点提及了区块链去中心化的协作模式搭建共建共享共益的开放知识库的构想与实践。同时EpiK产品负责人介绍了即将推出的游戏化数据标注平台,详细内容如下:
前面三位老师分别讲述了知识图谱、区块链和数据标注三个方向的细节,而这三个方面融合在一起又会产生怎样的火花呢?接下来我要讲的EPIK PROTOCOL铭识协议,它的目的就是为了构建人类的永恒知识库,从而提高AI的智能,这就是数据开源或者是知识开源。
为什么要搭建开源知识平台?
EpiK项目是基于区块链的可信的分布式数据和知识的共享平台,通过去中心化数据存储和协作的方式来实现数据的共建和共享。为什么Epik会嵌入到人工智能和区块链的结合的角度,来切入到创业中来?这与当下的时代背景密不可分。
第四次工业革命已经来临了,全面智能化是这个阶段的核心目标之一,各种智能体也在逐渐的走入日常生活,比如说siri、小爱同学等等人工智能的语音助手,还有各种有AI学习能力的家用电器,比如说冰箱洗衣机彩电等等。
人类的知识传承已经有数万年了,最早是甲骨文刻在石头上,最后演变成竹帛纸张,到数字化存在硬盘上,这些知识都以文本图片和音视频非结构化的数据结构来存储,人类理解这些知识是很容易的,比如,我们可以很轻松的从电影中或者是从歌曲中判断这个人物的关系和情节。但是对这些信息,机器理解是很难的,很难通过一祯一祯的屏幕来把人类的关系梳理出来,如何让机器理解我们的人类的知识?
谷歌2012年提出知识图谱,它通过结构化的人类体系,从而让机器掌握人类的知识,开拓AI的认知。这里有一个知识图谱,也是我们很熟悉的一部电影,叫做《复仇者联盟》,它是用一个一个的图谱组成的网络结构,描述了电影中透露的各种各样的信息,有了这些图谱,AI就可以读懂知识图谱回答很多的问题,比如如何获得宝石位置,从谁那里取得宝石等等。
人工智能是一个大的方向,但是这个事儿和区块链有什么关系,这个就需要引入到一个很严肃的话题,是人类怎么样才能信任人工智能或者机器智能,这里就涉及机器人是否会欺骗人类,引导人类作出错误的决策。
AI或者知识图谱是很多的公司在做得事情,脸书,苹果、亚马逊、阿里巴巴等等,他们每个大公司都耗时费力的构建自己的知识图谱,但是这些知识图谱不是互联互通的,每个公司有自己的知识库,这就涉及到一个问题,中心化的知识库会面临被篡改知识图谱的隐患,由于知识图谱是一个可以一个一个三元组成的拓扑式网络结构,一个结点的变化,很容易导致计算机或者人工智能理解这个节点相关其他节点的关系都会发生变化,从而造成善恶或者立场的变化,这是非常危险的。
同时构建超大规模的知识图谱,还面临着无法组织大量的人工参与到构建知识库的过程中,缺少这样的组织结构,专业化是很难做到的,也会成为机器智能化巨大的障碍。
基于这两点可以看到,构建超大规模知识图谱,区块链技术是目前唯一找到解决这个问题的出路,因此,知识图谱就要开源开放可见度,这是它的必备属性,而不是不可对它产生的结果做解释。
构建开源知识平台有哪些挑战?
知识图谱底层的存储要开放开源和监督,但是人们怎么样可以协作共建知识库,同时可以访问知识库?
这里面有很多挑战,人类的知识是非常多的,领域也非常多,如何搭建共享平台我要是考虑几点。
第一点,如何开放知识共享,通过构建一些合理的工具和机制,让人人都有渠道贡献知识,因为每一个人都是智能体,让有需求的人可以有方法和访问这些知识。
第二条,如何防范知识篡改,或者知识被更改的时候可以溯源的,这就需要用到区块链的东西,它能保证知识的确权和不可更改,同时也可以通过合适的机制保障它可以持续的公开和更新。
接下来是我们如何能保持知识的质量,由于区块链其实是价值的载体,它的存储成本很高,它的优势其实不在于存储成本,而是在于数据的共建和共享,如何保证知识质量是很重要的一个话题。
在知识的产生层面,知识要可以被监督,在知识质量出现问题的时候,它需要被追责,才会形成一个良性循环,让链上的数据变得质量越来越高,越来越有价值。
最后一点,如何激励知识贡献,每个人都会通过我们的系统提供知识或者为我们系统做贡献,但是其实每个人都不一定是自发性的爱好,所以需要合理的激励机制,如何权衡各方面的收益的动态平衡,同时使得激励的分发成本相对比较低,让系统良性的可循环的运作起来,也是非常重要的。
为什么会选择在2020年做这个事情?我们观察到了一些合适的机会,很多的时机已经成熟了:2020年的时候基于区块链的去中心化存储技术刚刚成熟,比如很有名的项目Filecoin,可以借助0知识证明,以极低的管理成本组织超大规模的防篡改可共享的开放存储资源;2020年数据标注这个行业也迎来了一个大的爆发,预计2025年会达到100亿左右的人民币规模,同时会促进大量的年轻的就业人口涌入,为这个行业提供丰富的知识贡献和知识质检人才;2020年,DeFi这个概念迎来了空前的发展,可以更好的帮助解决线上的激励动态分配的问题,同时让数字货币的激励手段变得更加灵活;社会对数字货币的接受程度越来越高,越来越接受激励的合理性的概念。
EpiK构建超大规模知识图谱的解决方案
基于上面的考虑,诞生了EPIK PROTOCOL,EPIK指的是EpigraphyKnowledge,翻译过来就是铭刻在石头上的知识,代表着进入区块链上的知识,就像铭刻在石头上一样,不可以被随意的篡改,目的是依托区块链技术,构建人类永恒知识库,从而开拓AI的学识。针对前面提出的问题,提出三大解决方案。
第一点,要借助去中心化的存储技术,来解决数据的不可篡改问题,就是这样的数据是不可以被随意篡改的,这些知识不会因为私人的利益而随意篡改的,从而实现知识在全国各地永恒存储得以广泛传播。
第二点,借助去中心化自治组织解决劳动力问题,实现各国各界各族人民去中心化协作中公平获益。
第三点,借助通证经济解决自驱力问题,实现生态中各个成员为追求自身利益最大化,从而无形中推动知识图谱数据壮大的过程。
Epik技术架构,分为三大模块,知识提取、知识存储、知识应用,由低到高的三个层级,里面包含了很多的技术细节。
Epik生态参与者包含五个角色:持币用户、数据矿工、领域专家、赏金猎人、数据网关。把这些角色按照数据从生产到存储到使用这三个过程,数据产生的团体包含三种角色,一个是核心用户,一个是领域专家和赏金猎人,核心用户是可以通过投票来票选出领域专家,确保领域专家的权威性和专业性,领域专家是一个非常核心的的人物,负责组织生产各个类目的人类知识库数据,由于整个工作是非常劳动密集型的工作,所以涉及到大量的繁杂的数据纠错和清洗的工作,数据专家是无法完成的,他需要把这些任务拆分出来,发布到平台上,由赏金猎人认领,他的目的就是为了完成领域专家发布的任务,同时获得对应的奖励。
经过领域专家发布任务,把数据梳理和清洗出来以后,通过领域专家上传给数据矿工上,就是底层的存储机制上,这里面有数以万计的数据矿工来共同维持着整个平台数据的不可篡改和确权。
数据从产生到存储下来,可能涉及到应用的环节,上面会有很多应用的生态,如何方便的访问这些数据,就引入了第五个角色,就是数据网关,它的作用就是为整个底层的数据存储提供数据访问和数据索引的服务,为上层的应用层赋能,让上层的应用层更好的使用整个平台存储的数据。
上面说到的两个图偏概念化,下面举一个具体的例子,如何实现商业闭环,这就是一个具像化的图。
首先可以看到上面已经标注了一些角色了,领域专家,数据网关等等,领域专家是行业专家和领域达人,目的是梳理数据格式,组织数据生产和验收数据质量,其处理的数据都是自己所在该领域的公开的数据源,比如说公开的企业信息,公开的教材信息等等,当他把这两个数据源梳理的格式定好了,所要处理的数据任务发到去中心化的平台上,赏金猎人就可以在这个平台上认领任务,他的角色一般是大学生、青年白领等等,有一定的空闲时间,有一定的知识储备和使用工具素养的一些人,他们可以领取众包任务,同时对这些数据进行校对,获取一定的收益。
数据按照我们所需要的格式和质量生产好以后,由领域专家提供给矿工,矿工就是底层的分布式存储节点,由于我们的数据存储比较定向化,都是针对知识领域的,所以对数据存储的要求能力都不是很高,可能要求这些服务器八核16G,250G的ssd固态硬盘,5兆的带宽就可以满足。数据存储了以后,上层会有很多的应用,会访问我们的数据,因为我们的数据很有价值,因为我们整理了公开的企业信息,原题库整理了教材信息,这两种信息对他们来说都是非常有用的,同时我们可以看到上层知识的应用场景都有很大的规模,就是证明我们所服务的市场增长潜力和空间是巨大的,也可以保障整个项目的快速发展。
他们可以通过数据网关很好的访问我们平台上存储的知识和数据,从而实现更多的商业化应用,为整个知识的变现提供价值。
这个系统为什么会很好运作起来?这里面就有一个区块链行业的概念,叫做通证经济,就是我们希望设计合理的通证经济,每个人提供贡献在里面都会有对应的收益,比如领域专家每天会有5880元人民币的收益,可能每个月的收益足够他养活10到20人的小团队,持续的做这个事情。赏金猎人都是小镇青年和白领时间比较零散化的一类人,他们是时薪的方式,可能达到每小时36块钱,完成任务就可以领取这部分的收益。矿工,大概会有30元每台节点一天的收益。最后底层的应用场景,用户想要使用数据是需要去耗费一定的资源的,这是给整个系统注入能量的一个过程,他们需要大概抵押每天是202块钱人民币左右的积分,就可以获得1GB数据的访问权,可以随时的赎回,这形成了商业闭环。
接下来看一下整个项目的路线图:第一阶段是我们已经完成的,如白皮书测试发布,测试网方尖碑发布,到白皮书发布,测试网预挖计划发布,领域专家招募计划启动,都已经完成了,第二阶段是主网v1.0罗塞塔发布,还有《治理白皮书》发布和知识众包产品1.0发布,到今年的二三季度,就会发布主网v2.0,引入重要的概念就是以太坊,EVM虚拟机,同时去中心化治理平台发布和知识众包产品2.0发布。
顺便提一下,为什么引入EVM信息?这可以很便捷或者0成本的把以太坊上的经济或者去中心化的Eth经济资源引入到知识生态系统中。比如用户想访问我们链上的数据,但是没有链上积分怎么办,就可以通过抵押其他的资产,来获得数据地访问,这样可以快速扩大用户规模,这只是其中的一个应用。
我们将EpiK使命描述为:这将是一场至少延续50年的碳基生命向硅基生命的史诗级布道。这是一个非常长期的赛道,而且Epik也会持续的给这个系统赋能和迭代,让越来越多的用户很好的贡献知识和使用知识。
游戏化数据标注平台即将发布
在这分享一下关于游戏化的数据标注平台产品的一些思考,为大家展现一下未来普通人怎么样能很轻松的参与到EpiK知识图谱构建体系中,来为系统提供自己的知识,从而获取收益。
游戏现在是让整个互联网消耗用户时长非常多的一个领域。这里有一组数据:2004年—2010年《魔兽世界》这个游戏所有玩家的小时数加一起约等于593万年,这个基本上比人类文明的历史还长了,平均玩家每周在虚拟世界里要花调17—22个小时,这基本上相当于上班时间的50%了。
而全球最好的图片数据集,已经有100万张是已经标注的图片。它的图片总数是可能过千万的,但是100万张是带标注的。如果每一张图片的标注成本是5分钟,那其实只需要《魔兽世界》这个游戏六十万分之一的工作量就可以完成了。所以说其实游戏是一个特别值得我们去思考的东西。
游戏化其实就是把游戏的一些常见的设计思路运作到一些非游戏的领域,比如在线教育、比如一些公益类的项目或者是一些产品设计当中去。
举个例子:支付宝的蚂蚁森林和蚂蚁庄园,蚂蚁森林的累计用户应该是有5.5个亿了。因为这是公益项目,用户可以根据能量换成植的真树,相当于这个蚂蚁森林种下了1.22亿颗真的树。蚂蚁庄园的累计用户有4亿,送出了150亿个鸡蛋,这两个项目其实都是一个游戏化的公益项目,但却增加支付宝的活跃度,增加支付宝的黏性,以及拓展支付宝的社交关系链。其实这是一个商业和公益上都双赢的很大体量的项目,虽然它看起来只是一个小游戏。
另外还有一个很好的例子,是一个在台湾的工作室Fourdesire,这个工作室专门喜欢去做这类游戏化的产品。比如说其中有一个叫《记账城市》,《记账城市》是鼓励用户每天去记账,因为记账是一个很枯燥的事情,它用一个用户不断地记账就能换取一些积分,这些积分就能发展用户自己的城市,这个城市里面还有很多好玩的一些小的游戏化的一些特性,这样的话就让挺多人喜欢上记账了,成为一个养成性的存在。
这些游戏类的APP有一个共同的特点,它原本是把一些很枯燥的东西、很枯燥的一些任务包装成一个游戏的壳,用户就能逐渐地沉迷其中了。而且这个工作室最终也获得了一个流量上非常不错的表现,这是一个二三十人的工作室,但是他在全球累计获取了超过2500万的用户,而且《记账城市》经常会被推荐上APP Store首页。
游戏的核心体验是什么?简单总结为四点,第一个就是积分等级成长体验,就是用户长期持续地完成任务会得到这种积分、奖励、等级提升,像《记账城市》就是这个城市逐渐地发展壮大,像《太空冒险》就是你可能去了更远的星球,这样是一个积分等级成长的体验。
另外,游戏当中沉迷的另外一个元素就是它有故事和情感体验,比如说游戏的《使命召唤》里面会有那种战友的剧情,用户就能沉浸其中并能情感投射。包括蚂蚁庄园那只很可爱的小鸡,我们经常看到在朋友圈里很多用户其实会觉得自己的小鸡好久没有喂食了,他其实会产生一种愧疚感,这些东西其实都是这个产品打造出来的优良的情感体验。
还有一个比较重要的是游戏能够有一个成瘾性和进入感也是因为它有即时反馈体验,当用户完成某一个任务之后是有明显的反馈体验设计的。比如说在打篮球的时候当我们去投中一颗篮球的时候,它会擦中那个篮网发出一个声音,这个其实就是一个即时的反馈。比如说我们打FPS类游戏如果是爆头屏幕中间会出现巨大的一个图标提示,这个就是一个即时反馈体验。
最后,社会性互动体验,比如说我们可以跟好友之间一起互动,当年风靡一时的Social game比如说偷菜其实就是借助游戏本身实现人与人之间的互动,这个互动充满了一些很小的暧昧或者说隐含表达性一些东西,这其实是玩家们都很喜欢的。
我们的尝试探索是这样的,第一就是我们觉得数据标注这个业务跟游戏化其实是可以放在一起的。为什么说我们觉得数据标注这个业务跟游戏化是比较适合放在一起的?
其实就是因为第一标注这个任务本身是枯燥重复的,另外,我们也是希望用户在碎片化的时间里能够去进行数据标注的。
假如这个时候我们有一个标注任务是口腔医学相关这个领域的,比如说口呼吸是否会导致下颌收缩,这个东西其实一般的用户是无法去标注的,如果是医生他又很忙,他平时又有大量主业的工作。如果我们能把这样类似于数据标注的业务,在医生这个全国大概只有14万左右人的群体里面,去把它用碎片化的方式拆解成任务,并用游戏化的方式去鼓励用户收集,那么可能这个标注任务就能更好地执行。
为此,我们期待做出这样一个体验的产品,第一它有流畅的标注体验的,这需要有强大的算法支持,能够智能地分配标注任务。第二,我们肯定要尝试不同的游戏化的场景设计,赋予用户这个故事与世界观。
另外,我们要把一些游戏化的元素融入进来,比如我们做随机的抽卡或者成长体系这样的东西,让这个游戏能够具备一个基本的可玩性。
先说下流畅的数据交互,我们现在认为大部分的数据标注任务其实上下文无关的,就是标一个任务和标下一个任务之间是没有太强的关系的。因此,就可以把一些大的任务拆解,拆解之后就可以分发给合适的一些人,比如,我们会发布让用户朗读句子五遍的任务,用户对着这个把这句话朗读出来,满五遍之后这个任务自动提交了,然后用户就能获取相应的一些积分,然后这些积分可以拿来在游戏里做一些好玩的东西。
在游戏场景我们希望讲一个故事,这个故事中可能是某一种浩劫人类文明现在已经被摧毁了,那么我们在这个基础上怎么重启人类文明?在这个主线中,我们要不断地派遣探险队出去探险,去找到过往历史中的一些科技遗迹,然后去升级我们的一些建筑。比如说原本给人类提供能源的是火堆,通过反复的派遣探险队我们最终能变成蒸汽发电站,变完蒸汽发电站之后我们可能会变成核聚变发电站。这样也带着我们重塑一遍人类的科技文明史,带着我们的玩家能够体验到一种带着人类文明从蛮荒的时代走向农业时代、走向蒸汽时代、工业文明包括现在的人工智能未来,未来可能走向太空时代。
但是这件事情其实本身是很难的,我们认为未来的工作难点是:第一,我们的数据标注任务的推荐系统设计,潜在的问题也会非常地多。比如说我们的标注任务怎么能够实时的生成、怎么能够实时的分发,当然还要考虑用户的专业性门槛和反作弊。第二,不同于专业性人员的标注,我们是有员工雇佣的。大家的工作场合是安静的,我们用户的使用场景可能是在地铁上、可能是在上班的闲暇时间、可能是家里。这样的话什么样的人在什么场景下获取什么样的任务能保证我们较好的数据质量,这也是一个问题。第三,多用户提交的时候我们整个标数据的质性度的问题;第四,怎么合理地激励每一个用户,使用户贡献量和激励平衡。整个这一系列的东西都是我们要长期去解决的问题;第五,真正好玩的、用户周期很长、高黏性的一个前端游戏化是怎么实现的,这个也需要逐步探索。比如说什么样的玩法用户喜欢,我们是做一个成长积分不断增长的游戏更好,还是做一个自我挑战的游戏更好,还是单纯只是把一点游戏化的元素融入到移动APP的标注当中就可以,怎么能够避免用户觉得有新鲜感之后就厌烦,或者我们能不能频繁更换主题,这些东西都是未来我们在前端上需要探索的地方。
欢迎分享,转载请注明来源:夏雨云
评论列表(0条)