- 关键词来源
- 通过词根托词(定向)
- 5118长尾词:https://ci.5118.com/1b49a5d8/
- 爱站长尾词:https://ci.aizhan.com/8d5a94b1/
- 相关搜索(包含词根的)轮循
- 下拉框(包含词根的)轮循
- 凤巢关键词
- 5118树状规划图:https://plan.5118.com/
- 通过网站托词(非定向)
- 5118网站词库:https://www.5118.com/seo/baidupc/www.1688.com
- 爱站网站词库:https://baidurank.aizhan.com/baidu/1688.com/
- 遍历竞争对手网站地图:
- tag页、专题页…sitemap
- /tag/1/ /tag/2/ /tag/3/
- …
跟领域相关,但有没有明确的词根
- 通过词根托词(定向)
- 分类
- 通过词根拓展的
- 找出
筛选条件,可以作为网站栏目或筛选项
- 找出
有找交流群的,有找新产品的,有问某个产品靠不靠谱的…
- 根据筛选条件和搜索需求,批量生成大量词
- 找出
- 通过网站拓展的
- 过滤出垃圾词
- 与本站内容完全不相关的
- 不符合社会主义核心价值观的
- 重复的
- 过滤方法
- 与本站内容完全不相关的
最简单的办法,通过搜索解决。每个词,搜索整站内容,如果没有搜索结果,则与本站内容不相关
- 不符合社会主义核心价值观的
命中黑名单
- 重复的
删掉停止词后,再分词后,词项完全一致的,保留一个
- 与本站内容完全不相关的
- 分类
- 词向量
http://ai.baidu.com/tech/nlp/word_embedding
机器学习:tensorflow
- 通过搜索
- 网站每个栏目下,随机抽取几千篇文章标题
- 依次给每个栏目的文章标题,创建索引
- 用拓展词依次去搜索,每个栏目标题的索引,并记录搜索结果数量
- 将该关键词,归类到搜索结果数最大的栏目下
- 打标签
文章标签:http://ai.baidu.com/tech/nlp_apply/topictagger
文章分类:http://ai.baidu.com/tech/nlp_apply/doctagger
- 词向量
- 过滤出垃圾词
- 通过词根拓展的
2.1)TF-IDF计算
TF = 某个词在文档中出现的次数 / 文档的长度
IDF = log( 搜索引擎文档总数 / 出现某个词的文档总数 )
PS:log以2为底
2.2)TF-IDF的意义
- 网页不见得内容越多越好。若布局不当,内容越多反而会稀释TF(keyword)的分值,从而降低这个词与这个网页的相关性
- IDF本质是一个词项的权重,降低文档中高频关键词的权重。所以网页中,玩命塞完整的关键词不见得好,但要多塞这个关键词中IDF最高的词项
2.3)BM25计算
- 常量K:用来限制TF值的增长极限,TF值永远在 [0 ~ K+1] 之间
- 参数L:文档长度与平均长度的比值,如果文档长度是平均长度的2倍,则L=2
- 常数b:用来规定L对评分的影响有多大
Elasticsearch里,K默认1.2,b默认0.75
$ ext{公式} = 权重(IDF)×相关性 = sum_{i=1}^n ext{IDF}(keyword)cdotleft[frac{TF(keyword)cdotleft(k+1 ight)}{TF(keyword) + kcdotleft(1-b+bcdotfrac{当前文档的字数}{整个文档库的平均字数} ight)} ight]$
2.4)BM25的意义
- 增加了文档长度对相关性的影响。文档越短,相关性会比用TF计算的值更低,减少通过 [缩减页面内容量] 对相关性计算的干扰
- 增加了对TF极限值的限制,减少通过 [堆砌IDF高的词项] 对相关性计算的影响
- 只是影响而已,[缩减页面内容量] 和 [堆砌IDF高的词项] 还是有用的,注意尺度
- BM25同样作用于title