一.前言
本文比较适用与中大型网站的SEO人员,小网站也可以参考。
目的在于探讨一种挖掘网站的内容潜力,把网站中用户可能会关心的内容呈现给用户,满足其需求,获取相应的SEO流量。
很多大型网站都在用的一种方法,但是很少有人出来详详细细的解释。
这样的SEO流量是如何获得的,下面举一个通俗易懂的例子。
假设我在百度上搜索“iOS 英雄无敌3”,目的是找一个能在iOS下运行的英雄无敌3这个游戏。
事实上这个游戏并不存在。因此压根不存在一个页面可以让我找到我想要的内容(如果有也是标题党)
于是我进入了tgbus的这个关于iOS 英雄无敌3的页面。
我在这个页面上找到了iOS上的英雄无敌2这个游戏以及其他类似英雄无敌3的iOS游戏,以及一些奇奇怪怪的新闻(ok,这个页面做得并不是很容易阅读)
Finall,我在tgbus上下载了英雄无敌2的iOS版本试试。
OK,我们再换个实际生活中例子:
一个姑娘去买衣服,于是看上一条粉红色的连衣裙,但是没她要的尺码。
这时候营业员会怎么做,没错,推荐一些类似颜色or款式的连衣裙,并且有码。
(TGBUS似乎推荐出了一条牛仔裤。)
SO,我们应该如何去找出用户想要的连衣裙和我们仓库中有的连衣裙,并且在最恰当的时候给用户最好的结果,还能获取到SEO流量,这并不是一件很简单的事情。
Wait,这不是就一个推荐引擎么?这么复杂的玩意交给工程师做就行了。事实上多数时候,这只是SEO们一厢情愿的东西,工程师才不会来鸟你什么推荐引擎,我们先从一个可执行的角度,自力更生来把这个SEO方法实施下去。
二.内容分析,关键词分析,数据接口设计
一个SEO知道自己网站有多少内容很重要,经常遇到和人说:“你网站这个XX页面有问题” “啊?这是什么页面啊,我从来没见过。”
一般一个网站垂直去分,有首页,内容页,列表页。
内容页中,又可能分图片页,评论页,文章分页等等
列表页中,又可能分频道页,产品列表页,索引页,专题页等等。
一般一套页面对应一套甚至多套php模板。
需要弄清楚这些模板是否在一个架构内,是否公用数据库,页面上使用了哪些字段,最好可以找到对应模板的开发人,如果有条件申请到源代码查看权限,可以自己看一下。一个内容聚合的需求可实现度很大程度上取决于上面这些内容,先弄清楚把配料都弄齐全了,再开始做菜,否则巧妇难为无米之炊。
横向去分可能是更多往business方向考虑,比如有我们有卖线路的,卖门票的,卖酒店的,攻略,用户图片,论坛帖子等等各个频道,各个频道可能是由不同的部门在负责。哪些是网站热卖的,需要热推(至少你做个SEO的东西得有商业价值,在电商公司非常重要),包括各个频道是否有人还在运营,一个常年无人打理的频道,显然不是一个好的内容源。一般来说,主要的产品线,和UGC的内容一般是网站内容提供主力。如果我们想挖掘用户需求,也可以优先考虑它们。
这个步骤需要花很多时间,复杂一些网站甚至要1个月才能弄清楚网站到底有多少类型的页面。在弄清楚上面的问题之后,
接下来,就需要只要知道各类内容有多少数量。
比如多少个SKU,多少文章,多少帖子,多少tags,多少分类等等
这是很多人在做类似工作时考虑不周全的,凭感觉去做。最后做出来一大堆重复内容的页面,重复页面对SEO有多坏的影响就不用再提了。
这个统计内容数量的办法(从好到坏排序)。
1.读数据库
2.通过一些”巧妙”的办法去数
3.用工具抓
4.靠经验猜(基本不靠谱)
读数据库是最简单,也是最准确的办法了,一个select完事
如果没有数据库权限,就要去想办法知道。比如文章有多少条,那可以计算分页数量*每页文章数量来统计
如果是自增id,那来凑自增id来数;
如果是固定格式数据,比如来北京的图片,北京的天气,地区数量*类型来计算,等等;
通过工具抓是很多seo的梦想,无数人问过这样的问题,有没有什么工具可以统计出我网站有多少网页啊。
抱歉,还真没有,由于种种网站原因,没有任何一个工具可以统计出一个中大型网站到底有多少网页(谁有那这个工具比google,百度爬虫还NB),太多的爬虫陷阱,阻碍深入抓取的东西了。当然,这样的抓取工具并不是一无是处,对于小型网站,或者特定频道,甚至特定区块的抓取,还是有一定作用的。比如Httrack,Xeun,当然还有我比较喜欢用的火车头。python,shell等脚本语言一直是万能的。
上面基本就是内容分析的大致情况了,弄清楚内容的种类,数量和运营情况,对SEO是有很多好处的。
三.关键词挖掘,清洗与过滤
关键词的挖掘说难不难,说简单也不简单。
基本每个人都会问,怎么挖掘关键词制作词库。先说说一些常用的手法。
1.baidu/google API
2.采集爱站,chinaz,伯乐等数据
3.采集百度下拉框(其他搜索引擎同理)
4.采集百度相关搜索(其他搜索引擎同理)
5.站内搜索和自然流量关键词
6.现成字典/词库
讲点具体实现的一些注意点,都是在实践过程中总结出来的东西。方法说了,基本10个人里面有1个人去实践一些就不错了
1.百度和google的api是要申请的,想办法搞一个,如果没有,只能用百度网页级别的采集,百度竞价后台经常改,所以不是很稳定,这边友情推荐一个工具http://www.lingdonge.com/(暂时备案中可能打不开),作者很nb,搞侠客站群软件的。百度API的python的SOAP通信有BUG,连不上(可能我水平太低了T_T),PHP会SOAP通信的话可以自己写脚本来跑,Google的没玩过,应该差不多;
2.API是有精确搜索量的数据,所以是词库第一数据来源;
3.百度下拉框反采集做的比较少,采集地址为http://suggestion.baidu.com/su?wd=xxxxxxxxx+一堆参数的,具体调整一下,一个小脚本可以搞定,但是数据深度有限,一般采集2轮后就不用再采了,基本采不出新数据了;
4.相关搜索可以用火车头或者飞达鲁金花之类的,因为是采集SERP,反采集这块要想办法绕过;
5.站内搜索和自然流量关键词去GA搞一下就行,批量导出不说了。很简单,不是用的GA可能会悲剧一些;
6.拼音输入法词库,推荐一个数据网站http://www.datatang.com/,可以看看,里面会有一些行业词库;
7.一些特殊的搜索引擎,淘宝,youku之类,他们也积攒了大量的数据信息。
四.分词/检索/排序/修正
五.频道的运营,维护,拓展
六.数据监控
注:文章来自站长之家专栏用户陈汝一供稿,转载请注明出处。
文章评论 本文章有个评论