
robots.txt是一个文本文件,用于告诉搜索引擎爬虫哪些页面可以被抓取,哪些页面不允许被抓取。它通常放在网站的根目录下,使用"User-agent"字段来指定规则适用于哪些爬虫。例如:
User-agent: *Disallow: /admin/Disallow: /private/
上面的例子表示,所有爬虫都不能抓取网站的/admin/和/private/目录下的页面。
sitemap是一个XML文件,用于告诉搜索引擎网站上都有哪些页面。它包含网站的网页链接、更新时间等信息,可以帮助搜索引擎更好地理解和索引网站。sitemap通常放在网站根目录下,并在robots.txt中声明其位置,例如:
Sitemap:设置好robots.txt和sitemap后,搜索引擎就能更好地抓取和索引网站,从而提升网站在搜索结果中的排名。
robots.txtrobots.txt使用技巧
当用户尝试访问未存在的URL时,服务器通常会记录404错误。 同样,如果搜索引擎蜘蛛搜索不到文件,也会在日志中显示此类错误,因此建议在网站中添加一个文件来处理这种情况。 网站管理员可以通过来控制搜索引擎对服务器某些目录的访问,比如避免“cgi-bin”目录下的程序被索引,可以节省服务器资源。 通常,不需要被抓取的文件包括:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表、模板和导航图片等。 以下是在VeryCMS中的文件示例:User-agent: *Disallow: /admin/ (后台管理文件)Disallow: /require/ (程序文件)Disallow: /attachment/ (附件)Disallow: /images/ (图片)Disallow: /data/ (数据库文件)Disallow: /template/ (模板文件)Disallow: /css/ (样式表文件)Disallow: /lang/ (编码文件)Disallow: /script/ (脚本文件)对于动态网站,若创建了静态副本供搜索引擎抓取,需要在中设置不让动态网页被索引。 同时,文件可以包含sitemap链接,如Sitemap:,这能简化提交sitemap到搜索引擎的过程。 的合理使用还能避免访问错误,比如阻止搜索引擎直接访问购物车。 文件格式由记录组成,包括User-agent,Disallow和Allow等部分,使用通配符(*)和($)可以实现更灵活的url匹配。 不同搜索引擎可能对user-agent有不同的名称,如Baiduspider及其子产品。 最后,文件通常需要7-15天才能生效,且应尽量使用ANSI编码或UTF-8编码格式,避免中文字符,并注意Disallow和Allow的顺序。
新网站如何做SEO优化
SEO优化的详细流程:
第一个:站内结构优化
合理的站点结构:
1.扁平化结构:网站整体结构呈F型,“-”表示顶级导航,用来布局核心词,“|”表示副导航,用来布局热门词。 整体布局表现出:重要的东西布局在上面和左边方向。 目录的爬去层级不要超过3次。
2.辅助导航、次导航:一般放在首页和列表页的左边,用来布局长尾词或者热门词。
3. 面包屑导航:每个页面(包括搜索框页面)都要有“主页>XXX>XXX”的导航,并且“主页”都是可点击返回到首页
第二个:代码优化
文件优化:禁止搜索引擎抓取涉及安全、动态页面、死链接等方面,把网站地图放到最后允许抓取,可以直接复制以下通用的robots文件设置:(注:/前面一定要空一个格)
User-agent: *
Disallow: /plus/
Disallow: /include/
Disallow: /templets/
Disallow: /data/
Disallow: /dede/
Disallow: /images/
Disallow: /uploads/
Disallow: /
Disallow: /
Disallow: /*?*
Sitemap:延伸:对于网站中一些没有任何抓取意义的页面也可以屏蔽掉,比如说“关于我们、联系我们、版权声明”等页面都可以屏蔽掉,把更多抓取的配额留个其他有意义的页面,但是尽量不要屏蔽CSS和JS文件所在的文件夹,有可能导致蜘蛛无法顺利爬取网站。
做好robots文件后到网络站长后台更新robots文件。
2.网站地图:html地图(给网络看)、xml地图(给谷歌看)、RSS地图
延伸:做好各类型的网站地图之后,第一个要先写进robots文件中(提交后到网络站长后台更新robots文件),第二个要到网络站长后台提交网站地图的URL。
3.图片优化:属性符合图片内容;尽量加关键词;不要刻意堆砌关键词;同一页面的alt属性不要相同;给图片指定规格大小;压缩图片体积;如果是模板网站,尽量修改掉原图片名字。
5.H标签优化:网站的代码中h标签的优化是很重要的一部分,h标签分为h1-h6标签,h1标签是h标签中最重要的,也是赋予权重最高的,因为一个页面中只能出现一次h1标签,一般h1标签都是写在标题上,因为这个是每个页面最重要的,还有千万注意一个页面不能出现多个h1,可以多次出现h2-h6,但是有h2-h6的话是必须要加h1的,网站要么不写h标签,要写就要写完整,不要出现有h3,而没有h1这种情况,如何不懂代码就不要随便在网站中添加h代码。
6.强调标签优化:用strong标签比b或者i的优化效果好
、JS优化:运用工具压缩CSS和JS文件体积;除了常规的JS外,其余的JS可以直接转移到代码最底部;CSS和JS尽量放在独立的外部文件,然后在HTML里调用;CSS和JS文件用绝对/xxx/调用,不要用相对路径/xxx/;左对齐代码,删除代码之间的空行;合并CSS、合并JS;删除CSS里用不到的样式表
9.删除垃圾代码:垃圾代码指的是不影响网站正常运行的代码。 删除代码空格;删除默认属性代码(如左对齐、居中显示),无论设置与否,网页都是按照这种布局来显示的,所以无需重复设置属性;删除注释语句;删除空语句(代码间的空格或者两个标签之间没有内容如<b></b>、<font></font>、<h1></h1>等。 但有一部分标签是不能删的(如<tr>、<td>或者<p>),否则页面将会出现错乱。 可以使用网页制作软件提供的特定功能对代码中的空语句进行清理。 例如,Dreamweaver的“清理HTML/XHTML”功能就可以快速清理页面中的空语句:(1)点击菜单栏中的“命令”;(2)选择“清理HTML”;(3)根据需要选择相应的选项,然后按“确定”即可。 )
第三个:网站地图设置:推荐SitemapX软件
html网站地图(1、为搜索引擎建立一个良好的导航结构 2、横向和纵向地图:01横向为频道、栏目、专题/02纵向主要针对关键词 3、每页都有指向网站地图的链接)
网站地图(提交给网络、XML地图提交给google,还有RSS地图)
注:网站地图放在底部或者头部右边
第四个:关键词部署
挑选关键词的步骤(
1、确定目标关键词
2、目标关键词定义上的扩展
3、模拟用户的思维设计关键词
4、研究竞争者的关键词)
页面关键词优化先后顺序(
1、最终页>专题>栏目>频道>首页
2、最终页:长尾关键词
3、专题页:【a、热门关键词 b、为热点关键词制作专题 c、关键词相关信息的聚合 d、辅以文章内链导入链接】
4、栏目页:固定关键词
5、频道页:目标关键词
6、首页:做行业一到两个顶级关键词,或者网站名称)
关键词部署建议(1、不要把关键词堆积在首页 2、每个页面承载关键词合理数目为3-5个 )
第五:内容优化
原创内容或伪原创内容
编辑撰稿或UGC
扫描书籍、报刊、杂志
2.内容细节优化
标题写法:标题不要超过28个字;尽量出现关键词;关键词尽量放在左边
关键词:文章字数控制在300~500个;关键词控制在3~5个;前200字出现一次关键词,最后一段出现一次关键词,其余关键词随机搭配;全篇文章关键词不要全部相同,指向链接可以相同,尽量保证关键词的多样性。
描述设置
文章摘要规范次导航
内页增加锚文本以及第一次出现关键词进行加粗
长尾关键词记录单
注:网站图片的alt 标签写法不要重复,否则会被判断作弊。
外链最好nofollow
网络站长工具、google管理员工具的使用
建立反向链接:寻找
3.关键词部署
挑选关键词的步骤(
1、确定目标关键词
2、目标关键词定义上的扩展
3、模拟用户的思维设计关键词
4、研究竞争者的关键词)
页面关键词优化先后顺序(
1、最终页>专题>栏目>频道>首页
2、最终页:长尾关键词
3、专题页:
a、热门关键词
b、为热点关键词制作专题
c、关键词相关信息的聚合
d、辅以文章内链导入链接】
4、栏目页:固定关键词
5、频道页:目标关键词
6、首页:做行业一到两个顶级关键词,或者网站名称)
关键词部署建议
1、不要把关键词堆积在首页
2、每个页面承载关键词合理数目为3-5个
4.内链策略
控制文章内部链接数量
链接对象的相关性要高
给重要网页更多的关注
使用绝对路径
需要改进的地方
5.注意事项
不要大量采集
有节奏的更新
编辑发布文章的时候要做好锚文
第六:外链建设
1.外链建设基本途径
友情链接、软文、目录提交、独立博客、论坛签名、黄页网站、提交收藏、分类信息、微博推广、sns推广
2. 链接诱饵建设思路:举办活动,带上相关链接,引导网友大规模转播
第七:数据分析
1.数据分析
根据统计(网络统计工具,CNZZ统计工具等等),分析用户进入的关键词,模拟用户思路,思考长尾关键词
2.竞争对手分析
网络权重、PR值
快照
反链
内链
收录
网站历史
品牌关键词
长尾关键词
网站结构
3.关键词定位:目标关键词、品牌关键词、热门关键词、长尾关键词
4.长尾关键词挖掘—长尾关键词类型
目标型长尾(目标型指的是网站的产品或者服务延伸的长尾关键词,往往优化长尾的时候都是先以目标型长尾为主,因为这些长尾可以真实给我们带来目标客户和目标量)
营销型长尾(营销型长尾是指与行业站服务相关的长尾,可以让我们进行二次转化成我们的目标用户)
5.挖掘长尾关键词用到的工具
网络指数工具
网络知道
网络及其他SE的相关搜索及下拉框
网络站长工具、google关键词分析工具
至此,一个完整的网站SEO优化方案已经完成,
如何设置robots.txt禁止或只允许搜索引擎抓取特定目录?
网站的文件必须放置于网站根目录,搜索引擎首先访问该文件以理解是否可以抓取网站内容或仅部分抓取。 例如,完全禁止所有搜索引擎访问网站任何内容的文件应这样设置:User-agent: *Disallow: /若要禁止特定目录被搜索引擎抓取,则在User-agent: *后添加Disallow: /目录名1/ Disallow: /目录名2/等。 允许访问特定目录中的部分url,例如:User-agent: *Allow: /158Allow: /joke若要禁止访问网站所有动态页面,可使用:User-agent: *Disallow: /*?若仅允许网络抓取网页和gif格式图片,禁止其他格式图片,需在User-agent: Baiduspider后添加:Allow: /*$Disallow: /*$Disallow: /*$Disallow: /*$Disallow: /*$屏蔽404页面,可设置:Disallow: /若原目录158下的所有链接因地址改变而变成死链接,可屏蔽这些链接:Disallow: /158/屏蔽动态的相似页面,例如屏掉/XXX?123页面,代码如下:Disallow: /XXX?告诉搜索引擎你的地址,具体代码如下: