0%

运行

注意:你必须已经按照管理员文档中提到的配置好了你的集群。

下载最新的Oryx版本,包括批处理层,实时计算层和服务层的jar文件和sh脚本。

或者,源码编译他们并从deploy/bin/获取最新的脚本。

阅读全文 »

这里收集了各种意见,经验法则和基准测试相关的性能:做这些不同的工作需要多少资源。

阅读全文 »

Java关键字volatile标识一个变量“被存储在主内存中”。更准确的说法是:每次volatile变量会从主内存中读取,而不是从CPU缓存;每次volatile变量的写操作会写入主内存,而不仅仅是CPU缓存。
阅读全文 »

Nginx 日志配置格式

log_format  main
        '[$upstream_addr] $remote_addr [$time_local] "$request" $status '
        '"$request_body" $body_bytes_sent "$http_referer" "$http_user_agent" '
        'RESP:$upstream_response_time '
        'REQ:$request_time';
阅读全文 »

Spark 优化

由于Spark内存计算特性,Spark程序会由集群上的如下因素决定其性能

  • CPU
  • 网络带宽
  • 内存

通常来说,如果配置适当的内存,那么瓶颈就是带宽。但是有些时候,有需要做些优化,比如以序列化的形式存储RDD,从而降低内存的占用。

阅读全文 »

注:以下代码实验环境均为

➜  ~  python
Python 2.7.10 (default, Oct 23 2015, 18:05:06)
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.
阅读全文 »

Oryx 2.1.0 系统要求

  • Java 7 or later (JRE only is required)
  • A Hadoop cluster running the following components:
    • Apache Hadoop 2.6.0 or later
    • Apache Zookeeper 3.4.5 or later
    • Apache Kafka 0.8.2 or later (in 0.8.x line)
    • Apache Spark 1.5.0 or later
阅读全文 »

简介

![Oryx2](/assets/images/posts/oryx/OryxLogoMedium.png)

Oryx2是专注于进行大规模,实时机器学习框架,遵循lambda规则,基于Apache Spark和Apache Kafka构建。

Oryx 不仅是构建应用程序的框架,而且包含 协同过滤,分类,回归和聚类的打包的端到端的应用。

阅读全文 »

Apache-flume NG 配置

简介

Flume NG是一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。

由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。

经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failover和负载均衡。

阅读全文 »