虾丸派

烂笔头


  • 首页

  • 标签

  • 分类

  • 归档

  • 关于

  • 书籍

  • 指南

  • 搜索

在 Elasticsearch 中一个字段支持的最大字符数

发表于 2017-06-14 | 分类于 大数据技术知识
字数统计 2,245字 | 阅读时长 ≈ 9分钟

最近在项目中遇到一个异常,写入数据到 Elasticsearch 中,报错:max_bytes_length_exceeded_exception。这个其实和 Elasticsearch 的字段长度限制有关,本文就回顾一下在 Elasticsearch 中一个字段支持的最大字符数。

本文涉及的开发环境:Elasticsearch v5.6.8,读者需要注意 字符数 、 字节数 这两个基本概念的区别。

阅读全文 »

记录一个 Kafka 错误:OffsetOutOfRangeException

发表于 2017-06-01 | 分类于 大数据技术知识
字数统计 3,219字 | 阅读时长 ≈ 13分钟

在使用 Kafka 的过程中,某一天项目中莫名其妙出现了一个异常信息:
kafka.common.OffsetOutOfRangeException
项目的业务场景是使用 SparkStreaming 消费 Kafka 数据,进一步进行 ETL 处理 ,没有复杂的逻辑。平时一切正常运行,某一天我想在测试环境测试一下更新的逻辑代码,就出现了这个问题,导致整个进程任务失败。本文记录分析问题、解决问题的过程,运行环境基于 Kafka v0.8.2.1,Spark v1.6.2、spark-streaming v2.10,其它版本的内容会与这个版本存在部分不一致的地方,我会特殊说明。

阅读全文 »

在 Windows 平台遇到 Hadoop 异常:UnsatisfiedLinkError

发表于 2017-05-21 | 分类于 大数据技术知识
字数统计 1,165字 | 阅读时长 ≈ 5分钟

在 Windows 平台运行 Spark 程序,Spark 任务的逻辑很简单,从 HBase 中获取数据,然后通过中间 Spark 算子做一些合并、过滤、去重等操作,最后写入 HDFS。

这个功能在真实线上环境一直运行稳定,由于业务逻辑需要做小部分修改升级,我修改完成后自己在电脑上测试【开发环境】,抛出异常:

1
java.lang.UnsatisfiedLinkError: org.apache.hadoop.util.NativeCrc32.nativeComputeChunkedSumsByteArray (II [BI [BIILjava/lang/String;JZ) V

并且数据写入 HDFS 失败,本文记录排查过程与解决方案。

本文开发环境基于 Windows 10、HBase v1.1.2、Hadoop v2.7.1、Spark v1.6.2 。

阅读全文 »

VLOOKUP 函数跨工作表跨文件使用方式

发表于 2017-05-14 | 分类于 知识改变生活
字数统计 2,188字 | 阅读时长 ≈ 8分钟

今天在处理 Excel 文件的时候,需要使用 VLOOKUP 函数,感觉很方便。内心有一种掌握了一个小技巧就可以节省很多时间的骄傲感,同时,除了入门级别的使用,还进一步发现了可以跨工作表、跨文件使用这个函数,顿时觉得更加方便了。我觉得这个函数在日常工作中应该很常用,而且很好用,所以本文就记录这个函数的使用方式,以及简单介绍 Excel 中的函数概念。

本文中涉及的 Excel 文件已经被我上传至 GitHub,读者可以提前下载查看:Excel 示例文件 ,文件名为:学生表成绩表.xlsx 。

阅读全文 »

Hexo 框架 Next 主题添加自定义 Page

发表于 2017-05-07 | 分类于 建站
字数统计 1,471字 | 阅读时长 ≈ 5分钟

在整理博客的过程中,发现需要新增一些页面,对于 Hexo 框架来说是 page 的概念,例如 首页 、 关于 、 分类 、 搜索 等页面。这种页面不同于每一篇博客文章那种发表的内容,对于 Hexo 框架来说是 post,而是可以交互的页面,例如可以在 搜索 页面中搜索博客的内容,可以在 分类 页面中查看博客文章的分类统计。当然,类似于 关于 这种页面也是静态的,没有交互的概念。

上面提到的这些页面都是 Next 主题自带的,只要在 _config.yml 配置文件中开启相关配置即可,不需要关心它是怎么实现的,例如开启了 分类 页面,它会自动把博客的分类统计好,展示出来。但是我的想法其实是新增一个页面,并且自定义图标、名称、内容,其实也可以实现,本文记录这个过程。

阅读全文 »

Linux 输出重定向的问题

发表于 2017-05-04 | 分类于 Linux 命令系列
字数统计 5,331字 | 阅读时长 ≈ 20分钟

最近遇到一个好玩的事,在使用 Linux 命令执行任务【Java 程序或者 Python 程序】时,需要把输出内容日志重定向到文件中,并且保持任务后台执行,这样就可以继续执行其它的命令,不占用 SSH 工具的 session。而且,如果等不了任务的运行,直接退出 SSH 登录即可,任务会在后台继续执行,下次重新登录时可以继续查看任务的状态、分析日志的内容。这里面会涉及到输出重定向、设备文件、输出类型的概念,本文记录这个问题以及涉及的相关知识点。

阅读全文 »

关于 Spark 或者 mapreduce 的累加器

发表于 2017-04-30 | 分类于 大数据技术知识
字数统计 2,443字 | 阅读时长 ≈ 9分钟

在 Spark 和 Hadoop 的 MapReduce 中都有累加器的概念,顾名思义,累加器就是用来做累加【或者累减】使用的,有时候为了统计某些值,在程序中埋入指标,这样在程序运行中、运行后都可以清晰观察到统计指标,还能辅助检查程序的问题。在 Spark、MapReduce 中,它们的使用方式尽管有一点点不同的地方,甚至在 Spark 的不同版本中使用方式也会不一致,但也算是大同小异。本文简单记录在 Spark、MapReduce 中累加器的使用,并补充说明一些重要的坑,Spark 环境基于 v1.6.2,Hadoop 环境基于 v2.7.1 。

阅读全文 »

Elasticsearch 中的 429 错误 es_rejected_execution_exception

发表于 2017-04-26 | 分类于 踩坑系列
字数统计 2,920字 | 阅读时长 ≈ 10分钟

今天在处理数据,处理逻辑是从 HBase 中扫描读取数据,经过转换后写入 Elasticsearch 中,程序的整体方案使用的是 mapreduce 结构。map 负责扫描 HBase 数据,并转换为 Map 结构,reduce 负责把 Map 结构的数据转为 JSON 格式,并验证合法性、补充缺失的字段、过滤非法数据等,最后使用 elasticsearch 官方发布的 BulkProcessor 把数据批量写入 elasticsearch。

在处理数据的过程中,遇到了一个诡异的问题,说它诡异是因为一开始不知道 BulkProcessor 存在的坑。关于这个问题,表面现象就是漏数,写入 elasticsearch 中的数据总是少于 HBase 中的数据,而且差距巨大。当然,如果是有经验的工程师,可以猜测好几个原因:扫描读取 HBase 的数据时设置过滤器过滤掉了不该过滤的数据、ETL 的处理逻辑中有误过滤数据的 bug、写入 elasticsearch 时数据不合法导致写入失败、由于 BulkProcessor 潜在的问题导致写入漏数。本文就记录解决这个问题的过程。

阅读全文 »

解决 IDEA 无法创建子包的问题

发表于 2017-04-22 | 分类于 基础技术知识
字数统计 783字 | 阅读时长 ≈ 3分钟

最近在使用 IDEA 的时候,发现一个奇怪的问题,如果新建了一个多层的包,再想新建一个和除第一层包之外的包等级别的子包就不行。说的这么绕口,什么意思呢?举例来说,比如我新建了一个包,完整路径为:a.b.c.d,如果再想新建一个和 d 等级别的子包 e:a.b.c.e,就不行,IDEA 会默认在 d 下面新建一个子包,那整个包就变成了:a.b.c.d.e,这显然是不合常理的,也不是我需要的。本文记录这个问题的解决方案。

阅读全文 »

Hadoop 入门系列 0-- 初识 Hadoop

发表于 2017-04-01 | 分类于 Hadoop 从零基础到入门系列
字数统计 3,252字 | 阅读时长 ≈ 12分钟

今天是愚人节,可以说是个好日子,也可以说是个坏日子。那我就选择从今天开始整理 Hadoop 入门系列 的博客内容,给自己开个玩笑,同时也给自己定一个目标,看看自己能不能坚持写下去。本文是这一系列博客内容的第零篇: 初识 Hadoop,会讲一些关于 Hadoop 的基础概念以及基本知识点,不需要技术基础,也不需要手动操作,能看懂就行。

阅读全文 »
1…131415
虾丸派

虾丸派

记录知识 | 分享技术

144 日志
13 分类
294 标签
RSS
GitHub 微博 E-Mail
Creative Commons
友情链接
  • GitHub
  • Weibo
  • 虾丸派
  • playpi
  • 廖雪峰
  • 阮一峰
  • travis-ci
  • Vultr
© 2016–2021 | 虾丸派 | 全站字数统计 326.3k 字
由 Hexo 强力驱动
|
主题 NexT.Mist| 总访问量 次 | 总访客 人
0%