虾丸派

烂笔头


  • 首页

  • 标签

  • 分类

  • 归档

  • 关于

  • 书籍

  • 指南

  • 搜索

Spark 异常之 exceeding memory limits

发表于 2018-02-25 | 分类于 大数据技术知识
字数统计 1,109字 | 阅读时长 ≈ 6分钟

业务上使用 elasticsearch-hadoop 框架来处理 Elasticsearch 里面的数据,流程就是读取、中间处理、写入,然后由于数据量级太大的【占用的内存也大】原因,出现异常:Container killed by YARN for exceeding memory limits.,这个异常其实很常见,做大数据开发的工程师基本都遇到过,稍微调整一下内存配置即可。

本文简单记录一下,给读者参考,开发环境基于 Elasticsearch v1.7.5、Spark v1.6.2、elasticsearch-hadoop v2.1.0、Hadoop v2.7.1。

阅读全文 »

Elasticsearch 根据查询条件删除数据的 API

发表于 2018-02-24 | 分类于 大数据技术知识
字数统计 1,869字 | 阅读时长 ≈ 8分钟

在使用 Elasticsearch 的时候,有时候免不了存入了一些脏数据,或者多余的数据,此时如果想把这部分数据删除,第一时间想到的就是删除接口,类似于关系型数据库中的 delete 操作。尽管 删除 这个操作在 IT 的世界里是大忌,甚至 从删库到跑路 这句话早已经成为了段子,但是只要控制好流程,经过多人审核,并做好备份,必要的时候删除这个操作还是要出场的。好,言归正传,本文记录 Elasticsearch 中的删除接口的使用,以及不同版本之间的差异。

阅读全文 »

注册 Facebook Twitter Tumblr 遇到的问题

发表于 2018-02-01 | 分类于 知识改变生活
字数统计 2,383字 | 阅读时长 ≈ 8分钟

在这个地球上,有很多好用的工具或者网站被封了,在中国大陆地区无法访问,如果需要使用它们,首要的问题就是翻墙。然而,事情没有那么简单,有时候可以翻出去了,但是在使用的过程中还会遇到奇怪的问题,每一步都不好走。本文记录注册使用 Facebook、Twitter、Tumblr 等社交账号时可能遇到的问题、解决的办法,给自己留一个备份,同时也能给大家带去一些方便。

阅读全文 »

Markdown 语法手册

发表于 2017-12-31 | 分类于 知识改变生活
字数统计 441字 | 阅读时长 ≈ 2分钟

首先声明,这份文档可能不完整,因为它是基于我日常的使用来整理的,如果有一些语法我还没有使用到,就不会记录在这份文档上面。但是,我会不定期更新这份文档,把自己使用到的越来越多的语法整理进来,这样就可以不断完善这份文档,从而越来越接近标题中的 语法手册 。

最近更新于:2019-11-01 。

阅读全文 »

Hello World

发表于 2017-10-29 | 分类于 基础技术知识
字数统计 78字 | 阅读时长 ≈ 1分钟

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.

阅读全文 »

IDEA 代理设置伪装激活信息

发表于 2017-10-17 | 分类于 知识改变生活
字数统计 1,095字 | 阅读时长 ≈ 4分钟

首先声明,此内容并不是教大家破解 IDEA,而仅仅是供学习使用,我在偶然间发现这个方法,觉得很有趣,想探究一下背后的实现原理。因此我选择了一个低版本的 IDEA【v2017.2】进行测试,当然,据说这种方式也只能破解低版本的 IDEA。

建议读者购买正版 IDEA,或者使用社区版本、校园版本,功能是足够使用的,当然这仅限于个人开源项目开发、学习测试使用,如果是公司的项目开发,为了避免法律风险,还是购买正版 IDEA。

下文中使用的操作系统为 Windows 10。

阅读全文 »

使用 Hexo、GitHub 搭建个人博客教程

发表于 2017-09-30 | 分类于 建站
字数统计 3,160字 | 阅读时长 ≈ 11分钟

对于喜欢写作的技术人员来说,可以使用 CSDN、 简书 、WordPress、 博客园 等产品,不仅可以记录自己在日常工作中遇到的难点、解决的 bug 等,还可以分享经验,让别人也学习进步。但是,有的人可能会觉得这些产品不好用,或者功能的扩展太掣肘,或者觉得这种方式不够酷,他们想追求更加自由的方式来写博客。

这时候,我觉得 Hexo 就可以出场了,它其实只是一个博客框架,如果你是新手,只需要几个命令十几分钟,就可以搭建自己的博客,而如果你技术高超并且愿意花时间的话,可以折腾出很多花样,博客从里到外你都可以自定义实现。本文记录我的博客搭建过程以及优化过程。

在此先声明,这篇博客内容是从 2017-09-30 开始写的,为了与时俱进,会保持不断更新,可能会删掉无用的旧内容并添加新内容,目前最新修改时间为 2019-06-09,所以请读者以最新的内容为准。

阅读全文 »

Charset:一个转换网页编码的工具

发表于 2017-08-21 | 分类于 知识改变生活
字数统计 867字 | 阅读时长 ≈ 3分钟

在 Web 项目的开发、测试过程中,有时候会遇到显示乱码问题,而引起问题的原因可能是代码出错、缺少设置等,此时可以通过浏览器查看,进而修复问题。

但是,如果在使用一些第三方网站的工具时,遇到显示乱码的问题,就不能要求网站修复了,毕竟没那么及时,如果是碰到一些编码设置不规范或者不正确的网站【长期不更改】,浏览器无法准确判断其使用的编码,导致网站显示乱码。此时可以使用浏览器的编码设置,强制指定一种编码,使内容显示正确。

但是,有的浏览器不支持编码选择,例如 Chrome 浏览器【v55 以及之后】,此时就可以借助 Charset 插件来解决这个问题。

阅读全文 »

Elasticsearch 分析器使用入门指南

发表于 2017-08-20 | 分类于 大数据技术知识
字数统计 4,141字 | 阅读时长 ≈ 18分钟

ElasticSearch 是一个基于 Lucene 构建的开源、分布式、RESTful 搜索引擎,能够达到实时搜索,并且稳定、可靠、快速。而其中最常用的全文检索【match 匹配】功能,在很多场景都有应用,这当然离不开分析器【Analyzer】,本文简单总结一下相关内容,入门级别。开发环境基于 v5.6.8。

阅读全文 »

Spark 序列化的一些事

发表于 2017-07-17 | 分类于 大数据技术知识
字数统计 1,173字 | 阅读时长 ≈ 4分钟

在 Spark 任务中,大家经常遇到的一个异常恐怕就是 Task not serializable: java.io.NotSerializableException 了,只要稍不注意,就会忘记了序列化这件事,当然解决方法也是很简单。

但是,对于初学者来说,恐怕会有一些疑惑,或者稀里糊涂把问题解决了,但是不知道根本原因。

阅读全文 »
1…12131415
虾丸派

虾丸派

记录知识 | 分享技术

144 日志
13 分类
294 标签
RSS
GitHub 微博 E-Mail
Creative Commons
友情链接
  • GitHub
  • Weibo
  • 虾丸派
  • playpi
  • 廖雪峰
  • 阮一峰
  • travis-ci
  • Vultr
© 2016–2021 | 虾丸派 | 全站字数统计 326.3k 字
由 Hexo 强力驱动
|
主题 NexT.Mist| 总访问量 次 | 总访客 人
0%