假设通过爬虫获得了一个自媒体.txt
想要从这些关键词中提取流量最大的关键词
可以通过如下算法实现:
from smoothnlp.algorithm.phrase import extract_phrase import re class_name = '自媒体' class_name_low = class_name.lower(开发者_开发学习) top_k = 100 with open('%s.txt' % class_name,'r',encoding='utf-8') as file: data_str = file.read() keyword_list = data_str.split('\n') with open('dont.txt','r',encoding='utf-8') as file: dont_setpython = set(file.read().split('\n')) word_count_dict = dict() new_word_list = extract_phrase(keyword_list,top_k=top_k) for new_word in new_word_list: if new_word in dont_set: continue new_word_low = new_word.lower() if class_name_low 编程客栈in new_word_low or class_name_low == new_word_low: word_count_dict[new_word] = len(re.findall(new_word_low,data_str)) continue add_l = re.findall('%s%s' % (class_name_low,new_word_low),data_str) add_r = re.findall('%s%s' % (new_word_low,class_name_low),data_str) if len(add_l) >= len(add_r): word_count_dict['%s%s' % (class_name,new_word)] = len(add_l) else: word_count_dict['%s%s' % (new_word,class_name)] = len(add_r) for word,count in word_count_dict.items(): print('%s\t%s' % (word,count))
其中:
自媒体.txt
就是需要的关键词库
dont.txt
就是过滤掉一些没有用的词汇
获得的结果如下,下面的这些词就是流量很大的词汇 可以用于注册账号去获取流量
自媒体领域 702
自媒体软件 502自媒体身份证 68自媒体推荐 450自媒体研究 199自媒体素材 378自媒体原创 1147自媒体审核 417浏览器自媒体 110自媒体阅读量 378自媒体app 346自媒体工具 222自媒体图片 416自媒体电脑 112自媒体管理 824自媒体内容 1083自媒体电视剧 48自媒体申请 742自媒体注册 1597百度自媒体 545自媒体同步 89自媒体电影片段 14自媒体检测 36自媒体抄袭 130自媒体选择 215自媒体产品 105自媒体信息 355自媒体粉丝&nbjssp; 474自媒体下载 173企业自媒体 789自媒体收益 1296自媒体数据 317淘宝自媒体 263自媒体手机 568自媒体剪辑 367自媒体电影 380自媒体服务 167自媒体采集 234自媒体变现 246自媒体修改 65自媒体风险 43中国自媒体 533自媒体兼职 182自媒体定位 143自媒体英语 53自媒体传播 776抖音自媒体 686自媒体渠道 212自媒体影响力 1300万粉丝自媒体 18自媒体绑定 47自媒体免费 205自媒体认证 1662自媒体流量 595自媒体播放量 164万粉丝javascript自媒体 42自媒体评论 116自媒体邀请码 137健康自媒体 96自媒体问题 35自媒体收入 826自媒体垂直 129自媒体招聘 665自媒体奖励 26自媒体教程 312自媒体盈利模式 140自媒体热点 104自媒体标题 561自媒体经营范围 20自媒体意识形态 13自媒体ppt 70自媒体品牌 219自媒体竞争 45自媒体社会 235自媒体现状 123开通自媒体 2192018自媒体 443国外自媒体 350自媒体公司 2862自媒体介绍 311自媒体生活 180自媒体模式 56自媒体故事 &nbswww.devze.comp;55自媒体分析 168自媒体策划 244自媒体版权 123自媒体推广 1893自媒体考核 38自媒体情况 32自媒体搬运 958音乐自媒体 337
最后的所有项目代码如下:
到此这篇关于基于python实现抢注大词的提词工具的文章就介绍到这了,更多相关Python提词工具内容请搜索我们以前的文章或继续浏览下面的相关文章希望大家以后多多支持我们!
精彩评论