虾丸派

烂笔头


  • 首页

  • 标签

  • 分类

  • 归档

  • 关于

  • 书籍

  • 指南

  • 搜索

GitHub Pages 禁止百度蜘蛛爬取的问题

发表于 2019-01-05 | 分类于 建站
字数统计 6,708字 | 阅读时长 ≈ 26分钟

最近才发现我的静态博客站点,大部分的网页没被百度收录,除了少量的网页是我自动提交【主动推动、自动推送】的,或者手动提交的,其它的网页都不被收录【网页全部是利用自动提交的 sitemap 方式提交的,一个都没收录】。我查看百度的站长工具后台,发现通过 sitemap 方式提交链接这种方式不可行,因为百度蜘蛛采集链接信息之前需要访问 baidusitemap.xml 文件,而这个文件是在 GitHub Pages 里面的,但是 GitHub Pages 是禁止百度蜘蛛爬取的,所以百度蜘蛛在获取 baidusitemap.xml 文件这一步骤就被禁止了,GitHub Pages 返回 403 错误【在 http 协议中表示禁止访问】,因此抓取失败【哪怕获取到 baidusitemap.xml 文件也不行,因为后续需要采集的静态网页全部是放在 GitHub Pages 中的,全部都会被禁止】。本文就详细描述这种现象,以及寻找可行的解决方案。

阅读全文 »

微博电影文稿备份

发表于 2019-01-01 | 分类于 建站
字数统计 3,171字 | 阅读时长 ≈ 11分钟

元旦是个好日子,在一年之始,我整理硬盘文件夹的过程中,发现了很多电影的资料,都是以前下载的,有的看过有的没看过。突发奇想,有些觉得好看的电影可以保留下来,剪辑部分片段发到微博,也可以用来记录自己曾经看过那些电影,本文记录随微博发送的文稿,防止被删。

阅读全文 »

蒸水蛋做法总结

发表于 2018-12-29 | 分类于 菜谱
字数统计 902字 | 阅读时长 ≈ 3分钟

蒸水蛋是一道小吃,有时候就简称为水蛋,可以当菜配饭吃,也可以配包子当做早餐,或者晚上蒸一碗当做宵夜,都非常好。吃起来嫩滑爽口,而且营养也丰富,做法非常简单,本文就记录蒸水蛋的过程。

阅读全文 »

Spark 异常之 java.net.BindException: 地址已在使用

发表于 2018-12-28 | 分类于 基础技术知识
字数统计 1,561字 | 阅读时长 ≈ 8分钟

今天查看日志发现,所有的 Spark 程序提交时会抛出异常:

1
java.net.BindException: 地址已在使用 

而且不止一次,会连续有多个这种异常,但是 Spark 程序又能正常运行,不会影响到对应的功能。本文就记录发现问题、分析问题的过程。

阅读全文 »

HDFS 异常之 READ is not supported in state standby

发表于 2018-12-27 | 分类于 Hadoop 从零基础到入门系列
字数统计 2,069字 | 阅读时长 ≈ 9分钟

今天查看日志发现,以前正常运行的 Spark 程序会不断抛出异常:

1
org.apache.hadoop.ipc.RemoteException (org.apache.hadoop.ipc.StandbyException): Operation category READ is not supported in state standby

但是却没有影响到功能的正常运行,只不过是抛出了大量的上述异常,而且内容都一样,也都是操作 HDFS 产生的,所以猜测与 HDFS 集群(或者配置)有关系。本文就记录发现问题、解决问题的过程。

阅读全文 »

HDFS 异常之 Filesystem closed

发表于 2018-12-27 | 分类于 Hadoop 从零基础到入门系列
字数统计 1,481字 | 阅读时长 ≈ 7分钟

今天通过 Hadoop 的 api 去操作 HDFS 里面的文件,读取文本内容,但是在代码里面总是抛出以下异常:

1
Caused by: java.io.IOException: Filesystem closed

然而文本内容又是正常读取出来的,但是我隐隐觉得读取的文本内容可能不全,应该只是所有文本内容的一部分。本文就记录这个问题的原因、影响以及解决方法。

阅读全文 »

可乐鸡翅做法总结

发表于 2018-12-25 | 分类于 菜谱
字数统计 691字 | 阅读时长 ≈ 2分钟

可乐鸡翅,是一道做法很简单的菜,很巧妙地将饮料和鸡翅结合在一起,做出来的可乐鸡翅既好看又好吃。本文简单介绍可乐鸡翅的做法总结,这是一种偏甜的做法。

阅读全文 »

Spark 错误之 JavaSparkContext not serializable

发表于 2018-12-21 | 分类于 基础技术知识
字数统计 836字 | 阅读时长 ≈ 3分钟

今天更新代码,对 Spark 里面的 RDD 随便增加了一个 Function,结果遇到了序列化(Serializable)的问题,这个不是普通的自定义类不能序列化问题,而是 JavaSparkContext 的用法问题,由于小看了这个问题,多花了一点时间解决问题,本文就记录下这一过程。

阅读全文 »

微博 url mid 相互转换算法实现 - Java 版本

发表于 2018-12-20 | 分类于 基础技术知识
字数统计 2,600字 | 阅读时长 ≈ 11分钟

对微博数据有了解的人都知道,一条微博内容对应有唯一的微博 url,同时对微博官方来说,又会生成一个 mid,mid 就是一条微博的唯一标识【就像 uid 是微博用户的唯一标识一样】,也类似于人的身份证号。其实,微博 url 里面有一串看起来无意义的字符【由字母、数字组成,6-9 个字符长度,当然以后也可能会变长】,可以和 mid 互相转换,本文就根据理论以及 Java 版本的实现,讲解微博 url 与 mid 的互相转换过程。

阅读全文 »

JavaScript 中字符串截取方法总结

发表于 2018-12-19 | 分类于 基础技术知识
字数统计 1,883字 | 阅读时长 ≈ 7分钟

最近在处理数据的时候,用到了 JavaScript 编程语言,通过绕弯路来解决 ETL 处理的逻辑,其中就用到了字符串的截取方法,查 JavaScript 的文档看到了 3 个方法,被绕的有点晕,本文就总结一下 JavaScript 中字符串截取的方法。

阅读全文 »
1…789…15
虾丸派

虾丸派

记录知识 | 分享技术

144 日志
13 分类
294 标签
RSS
GitHub 微博 E-Mail
Creative Commons
友情链接
  • GitHub
  • Weibo
  • 虾丸派
  • playpi
  • 廖雪峰
  • 阮一峰
  • travis-ci
  • Vultr
© 2016–2021 | 虾丸派 | 全站字数统计 326.3k 字
由 Hexo 强力驱动
|
主题 NexT.Mist| 总访问量 次 | 总访客 人
0%