SEM里面分词到底该如何分,有什么好的分词工具吗?

SEM里面分词到底该如何分,有什么好的分词工具吗?,第1张

百度推广账户是由推广计划、推广单元、关键词组合而成的,每个部分都需要分析市场和需求来进行划分与撰写,俺今天没有被委派创建计划单元,而是将单元中的关键词进行分组,乍听起来貌似还比较容易但真的做起来就有些凌乱了。

我的一个单元,打开之后竟然有好几百的关键词,然后让我将其重新分类分词:把意义相同,相近,语言表达有相同或相近意义的词语进行归类!

看着这几百个词顿时脑子就乱套了,先是把这些词总结到EXCEL里面就是一个工程,好在有一个提词的神器,否则真是欲哭无泪了。

分词思路方法小结:

1.根据类别进行筛选分类

2.通过语句的连接词进行分类

3.特殊口语单独分类

4.通过定语进行分类

5.经验决定分类

其实分词的方式并不局限于教程,而是根据每个人的经验不同而有不同的差别,和优化一样,对于栏目的把控人人有人人的方法,我们不能说哪种是对的,只有百度认可才是王道。

分词工具百度可以找下,很多

做任务,望采纳

sem要学习什么内容?

(1)学习搭建账户

分词——导入客户端——创意撰写——匹配URL

基于行业的调研、公司、产品和用户的调研,获取关键词并使用分词工具对关键词进行细分。分词主要遵循以下原则:

结构相同(字数相近、词性相同)

意思相近(同义词、近义词)

句式相同(疑问、陈述、否定)

四类计划必备(品牌词、竞品词、产品词、通用词)

(2)学习落地页设计

落地页的设计要求是吸引网民的关注让客户下单,接下来介绍产品,然后描述用户需求痛点,接着介绍产品迎合用户需求,最后呼吁用户购买。

(3)学习数据分析

数据分析需要使用三个表:关键词报告表、客户咨询表、账户结构表。

数据分析需要掌握四个公式:vlookup、countif、hour、iferror、sum。

(4)SEM方案

SEM方案主要包括以下内容:前期调研、投放策略、投放执行和效果预估四部分内容。

(5)信息流

信息流板块主要了解和学习今日头条、广点通等信息流平台的特点和操作流程。

以下分词工具均能在Python环境中直接调用(排名不分先后)。

1、jieba(结巴分词) 免费使用

2、HanLP(汉语言处理包) 免费使用

3、SnowNLP(中文的类库) 免费使用

4、FoolNLTK(中文处理工具包) 免费使用

5、Jiagu(甲骨NLP) 免费使用

6、pyltp(哈工大语言云) 商用需要付费

7、THULAC(清华中文词法分析工具包) 商用需要付费

8、NLPIR(汉语分词系统) 付费使用

1、jieba(结巴分词)

“结巴”中文分词:做最好的 Python 中文分词组件。

项目Github地址:jieba

安装

pip install jieba

使用

import jieba

jieba.initialize()

text = '化妆和服装'

words = jieba.cut(text)

words = list(words)

print(words)

2、HanLP(汉语言处理包)

HanLP是一系列模型与算法组成的NLP工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。

项目Github地址:pyhanlp

安装:

pip install pyhanlp

使用

import pyhanlp

text = '化妆和服装'

words = []

for term in pyhanlp.HanLP.segment(text):

words.append(term.word)

print(words)

3、SnowNLP(中文的类库)

SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。

项目Github地址:snownlp

安装:

pip install snownlp

使用:

import snownlp

text = '化妆和服装'

words = snownlp.SnowNLP(text).words

print(words)

4、FoolNLTK(中文处理工具包)

可能不是最快的开源中文分词,但很可能是最准的开源中文分词。

项目Github地址:FoolNLTK

安装:

pip install foolnltk

使用:

import fool

text = '化妆和服装'

words = fool.cut(text)

print(words)

5、Jiagu(甲骨NLP)

基于BiLSTM模型,使用大规模语料训练而成。将提供中文分词、词性标注、命名实体识别、关键词抽取、文本摘要、新词发现等常用自然语言处理功能。参考了各大工具优缺点制作,将Jiagu回馈给大家。

项目Github地址:jiagu

安装:

pip3 install jiagu

使用:

import jiagu

jiagu.init()

text = '化妆和服装'

words = jiagu.seg(text)

print(words)

6、pyltp(哈工大语言云)

pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

项目Github地址:pyltp,3.4模型下载链接:网盘

安装:

pip install pyltp

使用:

import pyltp

segmentor = pyltp.Segmentor()

segmentor.load('model/ltp_data_v3.4.0/cws.model') # 模型放置的路径

text = '化妆和服装'

words = segmentor.segment(text)

words = list(words)

print(words)

7、THULAC(清华中文词法分析工具包)

THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与 社会 人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。

项目Github地址:THULAC-Python

安装:

pip install thulac

使用:

import thulac

thu = thulac.thulac(seg_only=True)

text = '化妆和服装'

words = thu.cut(text, text=True).split()

print(words)

NLPIR(汉语分词系统)

主要功能包括中文分词;英文分词;词性标注;命名实体识别;新词识别;关键词提取;支持用户专业词典与微博分析。NLPIR系统支持多种编码、多种操作系统、多种开发语言与平台。

项目Github地址:pynlpir

安装:

pip install pynlpir

下载证书覆盖到安装目录,NLPIR.user 例如安装目录:/usr/lib64/python3.4/site-packages/pynlpir/Data

使用

import pynlpir

pynlpir.open()

text = '化妆和服装'

words = pynlpir.segment(text, pos_tagging=False)

print(words)

pynlpir.close()


欢迎分享,转载请注明来源:夏雨云

原文地址:https://www.xiayuyun.com/zonghe/233041.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2023-04-10
下一篇2023-04-10

发表评论

登录后才能评论

评论列表(0条)

    保存