0%

Spark 优化

由于Spark内存计算特性,Spark程序会由集群上的如下因素决定其性能

  • CPU
  • 网络带宽
  • 内存

通常来说,如果配置适当的内存,那么瓶颈就是带宽。但是有些时候,有需要做些优化,比如以序列化的形式存储RDD,从而降低内存的占用。

阅读全文 »

注:以下代码实验环境均为

➜  ~  python
Python 2.7.10 (default, Oct 23 2015, 18:05:06)
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
阅读全文 »

简介

![Oryx2](/assets/images/posts/oryx/OryxLogoMedium.png)

Oryx2是专注于进行大规模,实时机器学习框架,遵循lambda规则,基于Apache Spark和Apache Kafka构建。

Oryx 不仅是构建应用程序的框架,而且包含 协同过滤,分类,回归和聚类的打包的端到端的应用。

阅读全文 »

Oryx 2.1.0 系统要求

  • Java 7 or later (JRE only is required)
  • A Hadoop cluster running the following components:
    • Apache Hadoop 2.6.0 or later
    • Apache Zookeeper 3.4.5 or later
    • Apache Kafka 0.8.2 or later (in 0.8.x line)
    • Apache Spark 1.5.0 or later
阅读全文 »

Apache-flume NG 配置

简介

Flume NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。

由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。

经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failover和负载均衡。

阅读全文 »

logrotate is designed to ease administration of systems that generatelarge numbers of log files. It allows automatic rotation, compression,removal, and mailing of log files. Each log file may be handled daily,weekly, monthly, or when it grows too large.
阅读全文 »