知识抽取是算数据处理吗

知识抽取是算数据处理吗,第1张

知识抽取任务定义和相关比赛

纯文本数据中的知识抽取就是NLP(自然语言处理)

知识抽取的子任务:

命名实体识别:检测、分类

术语抽取:从语料中发现多个单词组成的相关术语

关系抽取

事件抽取

共指消解

相关的竞赛及数据集

1.Message Understanding Conference(MUC)

命名实体识别(Named Entity Recognition,NER)、共指消解(Co-reference Resolution,CR)

2.Automatic Content Extraction(ACE)

对MUC定义的任务进行了融合、分类和细化;主要分为五大任务,包含英语,阿拉伯语和汉语

实体检测与识别(Entity Detection And Recognition,EDR)

数值检测与识别(Value Detection And Recognition,VAL)

时间表达检测与识别(TERN)

关系检测与识别(RDR)

事件检测与识别(VDR)

3.TAC Knowledge Base Population(KBP)

KBP对ACE定义的任务进一步修订,适合现代知识抽取的需求主要分为四个独立任务和一个整合任务

实体发现与链接(EDL)、槽填充(SF)、事件抽取(Event)、信念和情感(BeSt)、端到端冷启动知识构建

4.Semantic Evaluation(SemEval)

实体抽取

任务定义:抽取文本中的元子信息元素。实体识别可以变成一个序列标注的问题。

序列标注方法:人工特征(词本身的特征、前后缀特征、字本身的特征)

序列标注使用的模型:HMM(隐马尔可夫模型)、CRF(条件随机场)、LSTM+CRF

实现实体链接的一些开源工具:wikipediaminer、DBpediaspotlight、opencalais

关系抽取

从文本中抽取出两个或者多个实体之间的语义关系

关系抽取的方法分类:

1.基于模板的方法

基于触发词的Pattern、基于依存句法分析的Pattern

2.监督学习方法

机器学习方法、深度学习方法

机器学习方法的特征设计:

深度学习方法特征设计:

监督学习的深度学习方法:

1).Pipeline

识别实体和关系分类是完全分离的两个过程,不会相互影响,关系的识别依赖于实体识别的效果

Pipeline方法-CR-CNN模型:仅使用词向量和位置向量作为输入,F1值84.1,超过目前最好的非深度学习方法。

Pipeline方法-Att-CNN模型:应用注意力机制,目前最好的方法。(F1值88.0)

Pipeline方法-Att-BLSTM模型:

2).Joint Model

实体识别和关系分类的过程是共同优化的。

Joint Model-LSTM-RNNs模型:

3.弱监督学习方法

远程监督、Bootstrapping

远程监督方法:知识库与非结构化文本对齐来自动构建大量训练数据,减少模型对人工标注数据的依赖,增强模型跨领域适应能力

Bootstrapping:通过在文本中匹配实体对和表达关系短语模式,寻找和发现新的潜在关系三元组

事件抽取

事件抽取任务

二、面向结构化数据的知识抽取

Mapping languages:

直接映射(direct mapping)

R2RML:RDF中关系数据库的标准转换

映射工具ontop:是一个使用SPARQL将数据库查询为虚拟RDF图的平台

三、面向半结构化数据的知识抽取

DBpedia:维基百科的结构化版本

ZHISHI.me:第一份中文大规模开放链接数据

访问ZHISHI.me的方式:Linked data、Lookup service、SPARQL endpoint、APIs、Data Dump

WEB网页数据抽取

手工抽取

手工方法获取网页信息:通过人工分析,手工写出适合这个网站的表达式,表达式形式可以是XPath表达式,也可以是CSS选择器的表达式。

包装器简介及描述方式

自动抽取

小结

WEB TABLE 抽取简介

1.表格实体链接(entity linking),将表格中各单元格的字符串映射到给定知识库的实体上。

1).候选生成

2).实体消岐

实体消岐步骤:构建实体消岐图、计算实体链接影响因子

两类实体链接影响因子:每个字符串的初始重要性,不同节点间的语义相关度

实体消岐算法:PageRank,用来整合不同的实体链接影响因子从而做出最终的实体链接决定。

四、实践展示:基于百科数据的知识抽取

Knowledge Collection

Category方法

命名规则方法

Knowledge Fusion

主语融合

宾语融合

1.单值属性:

精确性原则:日期、地点等类型的属性值出现冲突时选择最精确的一个

大多数原则:不同来源的属性值出现冲突时,选择出现次数最多的值

2.多值属性:直接合并去重

3.对infobox属性进行补全

人工编写规则从非结构化文本中抽取属性值

依照指示融合方法将属性值对转换为三元组

打开CSDN APP,看更多技术内容

wikipedia miner

利用维基百科进行文档聚类的时候用到的工具包,很实用,开源的多功能工具箱

属性用途_槽填充(Slot Filling)的定义、用途、意义及其他

撰写本文的原因是作为(伪)机器翻译领域的学生,需要查阅一些NLU的资料。发现google到的文章上来就教你槽填充的方法,让人摸不着头脑。所以在此做一个总结同时也作为和老师讨论的资料。定义定义1One way of making sense of a piece of text is to tag the words or tokens which carry meaning to the sent...

继续访问

知识抽取概念

构建知识图谱主要分为数据获取、知识抽取、知识融合和知识加工四个步骤。因为毕业设计涉及到知识抽取中的命名实体识别部分,以此博文来记录供自己日后的学习参考。

继续访问

CR-CNN(2015)论文阅读笔记

论文:Classifying Relations by Ranking with Convolutional Neural Networks(CR-CNN,2015)阅读笔记 一、背景 MV-RNN(2012) CNN(2014) FCM(2014) 二、模型 1.Word Embeddings(一般方法) rw = Wwrdvw vw是one-hot向量,Word Embeddings维度为dw。 2.Word Position Embeddings(一般方法) Word Position Embeddi

继续访问

NLP -- 公开数据收集

目前网上可供下载的数据众多,但是内容庞杂,把其中比较有用的数据找了出来。wiki系:wikipedia大家都不陌生,它的下载地址是:http://dumps.wikimedia.org/ , 这里有详细介绍:http://en.wikipedia.org/wiki/Wikipedia:Database_download但是wikipedia只是Wikimedia基金会的一个子项目,wikimedi...

继续访问

知识抽取与知识挖掘

前言 知识抽取是构建大规模知识图谱的重要环节,而知识挖掘是在已有知识图谱的基础上发现隐藏的知识。 1.非结构化数据的知识抽取 大量的数据以非结构化数据的形式存在,如新闻报道、文学,读书等。我们将从实体抽取、关系抽取和事件抽取进行介绍。 1.2 实体抽取 实体抽取又称命名实体识别,其目的是从文本中抽取实体信息元素,包括人名、时间、地点、数值等。实体抽取是解决很多自然语言处理问题的基础。想要从文本中进行实体抽取,首先需要从文本中识别和定位实体,然后再将识别的实体分类到预定义的类别中去。实体抽取问题的研究开展得比

继续访问

最新发布 ontop-vkg 学习

最近要用ontop、h2数据库,搭配protege使用~ 官网链接:https://ontop-vkg.org/guide/

继续访问

ontop虚拟知识图谱入门

关于虚拟知识图谱系统ontop的入门实践 官网:https://ontop-vkg.org/guide 根据指导进行操作实践: 环境: java 8 ,Git,Github,h2数据库 git clone https://github.com/ontop/ontop-tutorial.git cd ontop-tutorial 数据库设置 为下列工作建立数据库的过程: 解压缩h2的存档(h2.zip) 启动数据库: 在mac/linux上:打开终端,进入H2/bin跑sh h2.sh 在Window

继续访问

ontop:一个使用 SPARQL 将数据库查询为虚拟 RDF 图的平台-开源

-ontop- 是一个使用 SPARQL 将数据库查询为虚拟 RDF 图的平台。 它速度非常快,而且功能丰富。

热门推荐 知识抽取(一)

这部分知识涉及到知识图谱重要环节,知识抽取和知识链接,会涉及到很多算法和抽取pipline。需要较强的背景知识,本文仅把思路和算法做了概括并没详细展开讲解,需要了解相关算法细节可以谷歌。 目录  知识抽取任务定义和相关比赛 知识抽取技术 • 实体抽取 序列标注方法(HMM、CRF、LSTM+CRF) • 关系抽取  基于模板的方法 优点  监督学习方法  机器学习方法...

继续访问

知识图谱——知识抽取(1)

文章目录知识抽取任务定义概念目的数据源子任务面向非结构化数据的知识抽取实体抽取关系抽取事件抽取 本文主要是归纳整理了王昊奋《知识图谱:方法、实践与应用》这本书里有关知识抽取的非结构化数据抽取的部分。 知识抽取任务定义 概念 知识抽取的概念最早是20世界70年代后期出现在自然语言处理领域的,它是指自动化地从文本中发现和抽取相关信息,并将多个文本碎片中的信息进行合并,将非结构化数据转换为结构化数据。 具体是什么意思呢,我们看一个例子。 这是一段关于苹果公司的介绍文字,它是属于非结构化数据,通过知识抽取,我

继续访问

知识抽取-实体及关系抽取

知识抽取涉及的“知识”通常是清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用 D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等;从链接数据中获取知识用图映射,难点在于数据对齐;从半结构化数据中获取知识用包装器,难点在于 wrapper 的自动生成、更新和维护,这一篇主要讲从文本中获取知识,也就是我们广义上说的信息抽取。 1. 信息抽取三个最重要/最受关注的子任务: 实体抽取 也就是命名实体识别,包括实体的检测.

继续访问

第3章 知识抽取:问题、方法和数据

第三章:知识抽取:问题、方法和数据 知识抽取-问题和方法 问题分析 知识抽取场景(数据源) (半)结构化文本数据:百科知识中的Inforbox、规范的表格、数据库、社交网络、… 非结构化文本数据:网页、新闻、社交媒体、论文、… 多媒体数据:图片、视频 从信息抽取到知识抽取 区别:信息抽取获得结构化数据,知识抽取获得机器学习可理解和处理的知识(知识表示)。 关系:信息抽取建立在信息抽取基础上,都普遍利用到自然语言处理基础、基于规则的包装器和机器学习等技术。 知识抽取例子 ### 知识抽取的挑战 知识的不

继续访问

支持中文的deepdive:斯坦福大学的开源知识抽取工具(三元组抽取)

一、DeepDive简介 deepdive帮助你从更少的结构化数据和统计推断中提取结构化的知识而无需编写任何复杂的机器学习代码。deepdive是一种新的数据管理系统,能够解决提取、整合型,并在一个单一的系统预测问题,它允许用户快速构建复杂的端到端的数据管道。 二、DeepDive优势 deepdive让开发者只需要关心实体特征,不需要在乎算法。相比之下,其他机器学习系统需要开发者认为,聚类算法...

继续访问

关于在python中TagMe包的使用说明以及测试

关于在python中TagMe包的使用说明以及测试 最近一段时间,忙着解决wikipedia-miner这个折磨人的自然语言处理工具,工具很强大,可以获取概念在维基百科当中的许多信息,还可以解决概念的歧义和标注问题。但是唯一的缺点就是安装很麻烦(是一个类似于SSM的javaweb项目),因为维基百科数据库很大,因此在数据的预处理阶段需要使用大数据的Hadoop等技术。从去年一直到今年都没解决这个安...

继续访问

wikipedia的使用

#encoding:utf-8 import wikipedia wikipedia.set_lang("zh") #设置语言  wikipedia.search("中山大学") #搜索  my=wikipedia.page("中山大学") #获取页面  my.title #页面标题  my.url #页面url  my.content #页面内容  my.links # 页面上面出现的其他 实体...

继续访问

基于wikipedia的摘要系统

传统的基于图的摘要,我们所选择作为摘要的句子,不仅应该与主题相似而且相似于与主题有很高相似度的句子。     基于 wikipedia相似度计算方法分为四部曲。     The first one is sentence wikipedia.     传统的BOW方法是利用tf-tdf把句子刻画成一个词的向量。本文中把句子wikipedia化的方法是利用exact—match策略,首先抽取w

继续访问

知识图谱构建工具_CCKS-2017 行业知识图谱构建与应用-下篇

上篇文章推出之后,大家反应非常热烈,因此给了我们更大的动力将下篇加紧赶出来。这篇是PPT的下半部分,更加偏重于实战中关键技术的难点剖析,以及我们在实践中相应的解决方案描述。如果你曾有听完一场介绍知识图谱应用的讲座,感觉讲的很有道理,但仍有各种疑惑的情况,比如“他们用什么工具来构建知识图谱的?”,“为什么不选择XXX?”,“他们的可视化做的好漂亮,我该怎么做才能达到这样的效果?”那么这篇文章正是你需...

继续访问

数据库课程设计

c语言文件读写操作代码

     信息抽取(information extraction),简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。 例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。能从自然语言中抽取用户感兴趣的事实信息,无论是在知识图谱、信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。

     信息抽取主要包括三个子任务

     关系抽取 :通常我们说的三元组(triple)抽取,主要用于抽取实体间的关系。

     实体抽取与链指 :也就是命名实体识别。

     事件抽取 :相当于一种多元关系的抽取。

     关系抽取(RE)是为了抽取文本中包含的关系,是信息抽取(IE)的重要组成部分 。主要负责从无结构文本中识别出实体,并抽取实体之间的语义关系,被广泛用在信息检索、问答系统中。本文从关系抽取的 基本概念 出发,依据不同的视角对 关系抽取方法进行了类别划分 ;最后分享了基于深度学习的关系抽取方法常用的数据集,并总结出基于深度学习的关系抽取框架。

    完整的关系抽取包括实体抽取和关系分类两个子过程。实体抽取子过程也就是命名实体识别,对句子中的实体进行检测和分类; 关系分类子过程对给定句子中两个实体之间的语义关系进行判断,属于多类别分类问题

    例如,对于句子“青岛坐落于山东省的东部”,实体抽取子过程检测出这句话具有“青岛”和“山东”两个实体。关系分类子过程检测出这句话中“青岛”和“山东”两个实体具有“坐落于”关系而不是“出生于”关系。在关系抽取过程中,多数方法默认实体信息是给定的,那么关系抽取就可以看作是分类问题。

    目前, 常用的关系抽取方法有5类,分别是基于模式匹配、基于词典驱动、基于机器学习、基于本体和混合的方法 。基于模式匹配和词典驱动的方法依靠人工制定规则,耗时耗力,而且可移植性较差,基于本体的方法构造比较复杂,理论尚不成熟。 基于机器学习的方法以自然语言处理技术为基础,结合统计语言模型进行关系抽取,方法相对简单,并具有不错的性能,成为当下关系抽取的主流方法,下文提到的关系抽取方法均为机器学习的方法

    关于信息关系抽取,可以 从训练数据的标记程度 使用的机器学习方法 是否同时进行实体抽取 关系分类子过程以及是否限定关系抽取领域和关系专制 四个角度对机器学习的关系抽取方法进行分类。

    根据训练数据的标记程度可以将关系抽取方法分为 有监督、半监督和无监督三类

     有监督学习 ,处理的基本单位是包含特定实体对的句子,每一个句子都有类别标注。 优点 :取能够有效利用样本的标记信息,准确率和召回率都比较高。 缺点 :需要大量的人工标记训练语料,代价较高。

     半监督学习 ,句子作为训练数据的基本单位,只有部分是有类别标注的。此类方法让学习器不依赖外界交互,自动地利用未标记样本来提升学习性能。

     无监督学习 ,完全不需要对训练数据进行标注,此类方法包含实体对标记、关系聚类和关系词选择三个过程。

    根据使用机器学习方法不同,可以将关系抽取划分为三类: 基于特征向量的方法 基于核函数的方法 以及 基于神经网络的方法

     基于特征向量的方法 ,通过从包含特定实体对的句子中提取出语义特征,构造特征向量,然后通过使用支持向量机、最大熵、条件随机场等模型进行关系抽取。

     基于核函数的方法 ,其重点是巧妙地设计核函数来计算不同关系实例特定表示之间的相似度。 缺点 :而如何设计核函数需要大量的人类工作,不适用于大规模语料上的关系抽取任务。

     基于神经网络的方法 ,通过构造不同的神经网络模型来自动学习句子的特征,减少了复杂的特征工程以及领域专家知识,具有很强的泛化能力。

    根据是否在同一个模型里开展实体抽取和关系分类,可以将关系抽取方法分为 流水线(pipeline)学习 联合(joint)学习两种

     流水线学习 是指先对输入的句子进行实体抽取,将识别出的实体分别组合,然后再进行关系分类,这两个子过程是前后串联的,完全分离。

     联合学习 是指在一个模型中实现实体抽取和关系分类子过程。该方法通过使两个子过程共享网络底层参数以及设计特定的标记策略来解决上述问题,其中使用特定的标记策略可以看作是一种序列标注问题。

    根据是否限定抽取领域和关系类别,关系抽取方法可以划分为 预定义抽取 开放域抽取 两类。

     预定义关系抽取 是指在一个或者多个固定领域内对实体间关系进行抽取,语料结构单一,这些领域内的目标关系类型也是预先定义的。

     开放域关系抽取 不限定领域的范围和关系的类别。现阶段,基于深度学习的关系抽取研究集中于预定义关系抽取。

    基于深度学习的关系抽取方法常用的数据集有 ACE关系抽取任务数据集 SemEval2010 Task 8数据集 NYT2010数据集 等.

     ACE关系抽取任务数据集 :ACE2005关系抽取数据集包含599篇与新闻和邮件相关的文档,其数据集内包含7大类25小类关系。

     SemEval2010 Task 8数据集 :该数据集包含9种关系类型,分别是Compoent-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和Entity-Origin。 考虑到实体之间关系的方向以及不属于前面9种关系的“Other”关系,共生成19类实体关系。其中训练数据 8000个,测试数据2717个。

     NYT2010数据集 是Riedel等人在2010年将Freebase知识库中的知识“三元组”对齐到“纽约时报”新闻中得到的训练数据。该数据集中,数据的单位是句包,一个句包由包含该实体对的若干句子构成。其中,训练数据集从《纽约时报》2005—2006年语料库中获取,测试集从2007年语料库中获取。

    基于深度学习的关系抽取方法模型构建的重点在于利用不同神经网络的特点来抽取样本的特征,以学习样本的向量表示。在学习过程中,根据所用的神经网络基本结构的不同,可将基于深度学习的关系抽取方法分为 基于递归神经网络(recursive neural network,Rec-NN)的方法 基于卷积神经网络的方法 基于循环神经网络(recurrent net neural net-work,RNN)的方法 基于混合网络模型的方法 四类。

     基于递归神经网络的关系抽取方法 首先利用自然语言处理工具对句子进行处理,构建特定的二叉树,然后解析树上所有的相邻子节点,以特定的语义顺序将其组合成一个父节点,如下图3所示。这个过程递归进行,最终计算出整个句子的向量表示。向量计算过程可以看作是将句子进行一个特征抽取过程,该方法对所有的邻接点采用相同的操作。

    由于句子含义跟单词出现的顺序是相关的,因此关系抽取可以看作是一个时序学习任务,可以使用循环神经网络来建模。

     基于循环神经网络的方法 在模型设计上使用不同的循环神经网络来获取句子信息,然后对每个时刻的隐状态输出进行组合,在句子层级学习有效特征。在关系抽取问题中,对每一个输入,关系的标记一般只在序列的最后得到。Zhang等首次使用双向循环神经网络来进行关系抽取,提出了BRNN模型。如下图7 所示,在双向循环神经网络中某一时刻的输出不仅依赖序列中之前的输入,也依赖于后续的输入。

    为了更好地抽取句子中的特征,研究人员 使用递归神经网络、卷积神经网络与循环神经网络3种网络及其他机器学习方法进行组合建模来进行关系抽取

    Vu等提 出 了 基 于 文 本 扩 展 表 示 的ECNN和基于链接的UniBRNN模型 ,将每个神经网络得到的多个结果根据投票机制得到关系的最终抽取结果。

    Xiao等将 注意力机制引入一个多级的循环神经网络 ,该方法使用文本序列作为输入,根据标记实体的位置将句子分为5部分,使用同一个双 向LSTM网络在3个子序列上独立学习,然后引入词层级的注意力机制关注重要的单词表示,分别得到子序列的向量表示;随后,使用双向RNN网络进一步抽取子序列和实体的特征,并再次使用注意力机制将其转换成句子的最终向量表示,并送入到分类器中。

    Nguyen等将 传统基于特征的方法(log-linear模型)、卷积神经网络方法和循环神经网络方法使用集成、投票等机制进行组合

    zhang等提出 在双向LSTM 的基础上叠加注意力机制 ,以及使用卷积神经网络层获取句子的表示,再送入到一个全连接层和softmax层进行分类。

    在联合学习问题上,Zheng等 使用递归神经网络和卷积神经网络组合来进行联合学习 ,也是一种共享底层网络参数的方法。

[1]庄传志,靳小龙,基于深度学习的关系抽取研究综述[J].中文信息学报,2019,33(12):1-18.

更多自然语言处理相关知识,还请关注 AINLPer公众号 ,极品干货即刻送达。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/89910.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-03-06
下一篇2023-03-06

发表评论

登录后才能评论

评论列表(0条)

    保存