玩转 Oryx2 （一）

发表于 2016-04-08 更新于 2025-11-25 本文字数： 12k 阅读时长 ≈ 11 分钟

准备

环境

CDH 5.5.2, Parcel
- HDFS
- YARN
- Zookeeper
- Kafka
- Spark (on YARN)

阅读全文 »

Oryx2 性能优化文档

发表于 2016-04-07 更新于 2025-11-25 本文字数： 3.6k 阅读时长 ≈ 3 分钟

这里收集了各种意见，经验法则和基准测试相关的性能：做这些不同的工作需要多少资源。

阅读全文 »

Java关键字volatile

发表于 2016-03-08 更新于 2025-11-25 本文字数： 5.2k 阅读时长 ≈ 5 分钟

Java关键字volatile标识一个变量“被存储在主内存中”。更准确的说法是：每次volatile变量会从主内存中读取，而不是从CPU缓存；每次volatile变量的写操作会写入主内存，而不仅仅是CPU缓存。

阅读全文 »

正则表达式处理Nginx

发表于 2016-01-24 更新于 2025-11-25 本文字数： 2.3k 阅读时长 ≈ 2 分钟

Nginx 日志配置格式

log_format  main
        '[$upstream_addr] $remote_addr [$time_local] "$request" $status '
        '"$request_body" $body_bytes_sent "$http_referer" "$http_user_agent" '
        'RESP:$upstream_response_time '
        'REQ:$request_time';

阅读全文 »

Spark优化

发表于 2016-01-04 更新于 2025-11-25 本文字数： 6.3k 阅读时长 ≈ 6 分钟

Spark 优化

由于Spark内存计算特性，Spark程序会由集群上的如下因素决定其性能

CPU
网络带宽
内存

通常来说，如果配置适当的内存，那么瓶颈就是带宽。但是有些时候，有需要做些优化，比如以序列化的形式存储RDD，从而降低内存的占用。

阅读全文 »

Python关键字:yield

发表于 2016-01-02 更新于 2025-11-25 分类于 Python 本文字数： 5.1k 阅读时长 ≈ 5 分钟

注：以下代码实验环境均为

➜  ~  python
Python 2.7.10 (default, Oct 23 2015, 18:05:06)
[GCC 4.2.1 Compatible Apple LLVM 7.0.0 (clang-700.0.59.5)] on darwin
Type "help", "copyright", "credits" or "license" for more information.

阅读全文 »

Oryx2 简介

发表于 2015-12-21 更新于 2025-11-25 本文字数： 2.2k 阅读时长 ≈ 2 分钟

简介

![Oryx2](/assets/images/posts/oryx/OryxLogoMedium.png)

Oryx2是专注于进行大规模，实时机器学习框架，遵循lambda规则，基于Apache Spark和Apache Kafka构建。

Oryx 不仅是构建应用程序的框架，而且包含协同过滤，分类，回归和聚类的打包的端到端的应用。

阅读全文 »

Oryx2 管理员文档

发表于 2015-12-21 更新于 2025-11-25 本文字数： 5.4k 阅读时长 ≈ 5 分钟

Oryx 2.1.0 系统要求

Java 7 or later (JRE only is required)
A Hadoop cluster running the following components:
- Apache Hadoop 2.6.0 or later
- Apache Zookeeper 3.4.5 or later
- Apache Kafka 0.8.2 or later (in 0.8.x line)
- Apache Spark 1.5.0 or later

阅读全文 »