Memory

阿坤的好时光!

Spark Steaming + Kafka 分析处理消息队列

使用spark steaming 进行实时分析数据

Kafka是一种分布式的流平台,是基于发布/订阅的消息系统。Kafka可以以一个集群的形式运行在一台或多台服务器上,其中的服务器称为Broker;Kafka将消息分类存储,这个类别称为Topics;每条记录由key, value和时间戳组成;每个Consumer必须属于一个特定的Consumer Group(有默认的GroupId),配置位置在安装目录下的config/consumer.pr...

关联规则挖掘算法回顾

Apriori算法

数据挖掘中主要用到方法有分类(Classification)、估计(Estimation)、预测(Prediction)、关联规则(Association rules)、聚类(Clustering)等。Apriori算法是一个经典的数据挖掘算法,Apriori算法的用处是挖掘频繁项集的,频繁项集通俗的理解就是找出经常出现的组合,然后根据这些组合最终推出我们的关联规则。 算法定义 关联规则(...

CUDA编程基础知识+示例(二)

知识补充

本文内容包含线程网格、 线程网格 优化方法:尽量避免使用小的线程块,导致无法充分利用硬件。 通常线程块中的线程数量最好是一个线程束大小的整数倍,即32的整数倍。 两种线程块的布局方式,如32*16的数组,假设调度四个线程块,可以选择长方形布局和正方形布局,但是选择长方形布局要优于正方形布局,可以通过添加如下代码来选择布局 //长方形布局 Dim3 threads_rect(32,...

Trie树数据结构

前缀树,是一种用于快速检索的多叉树结构

本文内容为转载翻译及汇总,相关文章包括: http://dongxicheng.org/structure/trietree/ https://linux.thai.net/~thep/datrie/datrie.html Trie树基础 Trie is an efficient indexing method. It is indeed also a kind of determ...

Spark内核架构回顾

Spark注重建立良好的生态系统,不仅支持多种外部文件存储系统,而且提供了多种运行模式。部署在单台机器上时,既可以用本地(Local)模式运行,也可以使用伪分布式模式来运行;当以分布式集群部署是,可以根据自己集群的实际情况选择独立(standalone)运行模式来运行、YARN运行模式、还是Mesos运行模式。 Spark虽然支持多种运行模式,但Spark应用程序的运行架构基本由三部...

Scala语法初学笔记

基础+Map+Tuple+数组操作

记录一下自己开始学习Scala的基础语法,以后便于自己查阅。 基础部分 变量声明 var n = 9 输入 line = readLine() do…while() 循环示例: var line = "" do { println("Please input some words blow......") line = readLine() ...

MPI+CUDA混合编译

结合实例详解MPI主从模式

努力了很久写完了Apriori关联聚类的CUDA程序,为了适应更大数量级的文本文件,我要开始把CUDA_Apriori算法再用MPI并行。因为是文本关联聚类,文件的分割会破坏原本的关联关系,所以实现并行的难度就比较高了。 暂时的可行方法如下: K为当前的频繁度,当K>1时 其中Lk为K阶频繁项集,各从节点的LK加和得到CGk(全局频繁项候选集),在各个从节点只做...

在云计算和集群环境中使用CUDA

MPI的使用

使用MPI使CUDA扩展至使用上千个节点,NVIDIA的GPUDirect技术加速了MPI发送(MPI_send)和(MPI_Receive)等关键操作。通过MPI个GPUDirect的使用,利用这些API创建云计算在计算集群上运行的程序。 MPI消息传递接口,定义了并行计算的拓扑结构,用来将一组进场组织成一个MPI会话,MPI会话的尺寸在整个程序执行生命周期中是固定不变的。 MPI中...