SEO高端操作手法之建立词库

标签：文档相关搜索 2024-04-26　次

关键词来源
- 通过词根托词（定向）
  - 5118长尾词：https://ci.5118.com/1b49a5d8/
  - 爱站长尾词：https://ci.aizhan.com/8d5a94b1/
  - 相关搜索（包含词根的）轮循
  - 下拉框（包含词根的）轮循
  - 凤巢关键词
  - 5118树状规划图：https://plan.5118.com/
- 通过网站托词（非定向）
  - 5118网站词库：https://www.5118.com/seo/baidupc/www.1688.com
  - 爱站网站词库：https://baidurank.aizhan.com/baidu/1688.com/
  - 遍历竞争对手网站地图：
    - tag页、专题页…sitemap
    - /tag/1/ /tag/2/ /tag/3/
    - …
      跟领域相关，但有没有明确的词根
分类
- 通过词根拓展的
  - 找出
    
    筛选条件，可以作为网站栏目或筛选项
  - 找出
    
    有找交流群的，有找新产品的，有问某个产品靠不靠谱的…
  - 根据筛选条件和搜索需求，批量生成大量词
- 通过网站拓展的
  - 过滤出垃圾词
    - 与本站内容完全不相关的
    - 不符合社会主义核心价值观的
    - 重复的
  - 过滤方法
    - 与本站内容完全不相关的
      最简单的办法，通过搜索解决。每个词，搜索整站内容，如果没有搜索结果，则与本站内容不相关
    - 不符合社会主义核心价值观的
      命中黑名单
    - 重复的
      删掉停止词后，再分词后，词项完全一致的，保留一个
  - 分类
    - 词向量
      http://ai.baidu.com/tech/nlp/word_embedding
      
      机器学习：tensorflow
    - 通过搜索
      - 网站每个栏目下，随机抽取几千篇文章标题
      - 依次给每个栏目的文章标题，创建索引
      - 用拓展词依次去搜索，每个栏目标题的索引，并记录搜索结果数量
      - 将该关键词，归类到搜索结果数最大的栏目下
    - 打标签
      文章标签：http://ai.baidu.com/tech/nlp_apply/topictagger
      
      文章分类：http://ai.baidu.com/tech/nlp_apply/doctagger

2.1）TF-IDF计算

TF ＝某个词在文档中出现的次数／文档的长度

IDF = log( 搜索引擎文档总数 / 出现某个词的文档总数 )

PS：log以2为底

2.2）TF-IDF的意义

网页不见得内容越多越好。若布局不当，内容越多反而会稀释TF(keyword)的分值，从而降低这个词与这个网页的相关性
IDF本质是一个词项的权重，降低文档中高频关键词的权重。所以网页中，玩命塞完整的关键词不见得好，但要多塞这个关键词中IDF最高的词项

2.3）BM25计算

常量K：用来限制TF值的增长极限，TF值永远在 [0 ~ K+1] 之间
参数L：文档长度与平均长度的比值，如果文档长度是平均长度的2倍，则L＝2
常数b：用来规定L对评分的影响有多大

Elasticsearch里，K默认1.2，b默认0.75

$ ext{公式} = 权重(IDF)×相关性 = sum_{i=1}^n ext{IDF}(keyword)cdotleft[frac{TF(keyword)cdotleft(k+1 ight)}{TF(keyword) + kcdotleft(1-b+bcdotfrac{当前文档的字数}{整个文档库的平均字数} ight)} ight]$