文本格式都有什么

文本格式都有什么,第1张

文本格式有以下几种类型:

1、纯文字文档,扩展名为“txt”;

2、丰富文本格式,扩展名为“rtf”;

3、微软Word文档,扩展名为“doc”;

4、微软Excel表格,扩展名为“xls”;

5、微软PowerPoint演示文稿,扩展名为“ppt”;

6、网页,扩展名为“htm”或“html”;

7、Corel WordPerfect文档,扩展名为“wpd”;

8、可移植文档格式,扩展名为“pdf”。<

一、文本分类简介

文本挖掘是从非结构化的文本信息中获取用户感兴趣的或者有用的知识、模式的过程,文本分类是文本挖掘其中一个领域。文本分类的目的就是为用户给出的每个文档找到所属的正确类别(或主题)。

要想做文本分类,首先需要有带类别标签的文本集合,构成训练集,提取特征后再构建分类模型。自动化的文本分类应用广泛,不限于文本检索、垃圾邮件过滤、题材检测等,是文本挖掘最基础也是应用最广泛的技术。

二、文本分类步骤

STEP 1 : 数据预处理

去除文本噪声,比如网页源代码解析(常用到正则表达式)、编码转换等

STEP 2 : 中文分词

分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。中文分词就是将一段话划分成一个个词。比如,‘我喜欢吃番茄和吃西瓜’可划分为‘我/ 喜欢/ 吃/ 番茄/ 和/ 吃/ 西瓜 ’;‘我很久没吃西瓜了’可划分为‘我/ 很久没/ 吃/ 西瓜/ 了 ’;‘我喜欢吃西瓜,西瓜很甜,很久没吃西瓜了’可划分为‘我/ 喜欢/ 吃/ 西瓜/ ,/ 西瓜/ 很甜/ ,/ 很久没/ 吃/ 西瓜/ 了’

STEP 3 : 构建词向量空间

统计文本的词频,构建词向量空间,目的是将一个文本转为向量,便于接下来的建模分析。以step1的例子作简要说明,‘我喜欢吃番茄和西瓜’记为文档A,‘我很久没吃西瓜了’记为文档B,‘我喜欢吃西瓜,西瓜很甜,很久没吃西瓜了’记为文档C,转为词向量(忽略标点符号)

STEP 4 : 权重计算

简单的词频并不能衡量该词在对应文档中的权重,原因有两点,第一,词频会受文档词长的影响;比如,文档C的词长为10,‘吃’的词频为2,文档B的词长为5,‘吃’的词频为1,从绝对意义上的词频来说,文档C中‘吃’的词频是文档B的两倍,但从相对意义上的词频来看,两文档中‘吃’的词频均为0.2,是一样的;第二,词频不能衡量普遍重要性;我们在衡量权重的时候也要考虑到这个词在其他文档中的出现比率,比如‘番茄’,它仅在文档A中出现,说明该词在该文档中重要性较高,‘吃’在三个文档中均出现,说明该词的重要性较低;目前最常用的指标是TF-IDF,该指标综合了以上两点来衡量某词在某文档中的重要性。

STEP 5 : 分类器

将文本向量化之后就可以进行分类建模,常用的分类算法有朴素贝叶斯、KNN、SVM等;

STEP 6 : 评价分类结果

常用的分类结果的衡量指标有准确率、召回率、F1值等;基于分类结果继续优化分类器,直到精度满足要求;

文件的格式有:

1、TXT格式:txt是微软在操作系统上附带的一种文本格式,是最常见的一种文件格式 ,早在DOS时代应用就很多,主要存文本信息,即为文字信息,现在的操作系统大多使用记事本等程序保存,大多数软件可以查看,如记事本,浏览器等等。

txt即文本文件,在桌面或文件夹右键即可建立, 是一种文本文档,TXT即扩展名。2、DOC格式:是电脑文件常见文件扩展名的一种,亦是Word2003以前版本的文本文档,该格式原是纯文本文件使用的,多见于不同的操作系统中,软硬件的使用说明,该格式原是纯文字文件使用的,多见于不同的操作系统中,软硬件的使用说明。

至1990年代,微软在文字处理软件Word中,使用了.doc作为扩展名,并成为流行的格式,而前者的纯文字式已几近绝迹。3、PPT格式:Microsoft Office PowerPoint,是微软公司的演示文稿软件,可以在投影仪或者计算机上进行演示,也可以将演示文稿打印出来,制作成胶片,以便应用到更广泛的领域中。

利用Microsoft Office PowerPoint不仅可以创建演示文稿,还可以在互联网上召开面对面会议、远程会议或在网上给观众展示演示文稿。4、XLS格式:XLS 就是 Microsoft Excel 工作表,是一种非常常用的电子表格格式。xls文件可以使用Microsoft Excel打开,另外微软为那些没有安装Excel的用户开发了专门的查看器Excel Viewer。

使用Microsoft Excel可以将XLS格式的表格转换为XML表格、XML数据、网页、使用制表符分割的文本文件(*.txt)、使用逗号分隔的文本文件(*.csv)等。5、Mp4格式:是一套用于音频、视频信息的压缩编码标准,由国际标准化组织(ISO)和国际电工委员会(IEC)下属的“动态图像专家组”(Moving Picture Experts Group,即MPEG)制定,第一版在1998年10月通过,第二版在1999年12月通过。

MPEG-4格式的主要用途在于网上流、光盘、语音发送(视频电话),以及电视广播,而MPEG-4比MPEG-2更先进的其中一个特点,在影像变化速度很快、码率不足时,也不会出现方块画面。


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/2169.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-01-31
下一篇2023-01-31

发表评论

登录后才能评论

评论列表(0条)

    保存