Memory

阿坤的好时光！

Spark Steaming + Kafka 分析处理消息队列

使用spark steaming 进行实时分析数据

Kafka是一种分布式的流平台，是基于发布/订阅的消息系统。Kafka可以以一个集群的形式运行在一台或多台服务器上，其中的服务器称为Broker；Kafka将消息分类存储，这个类别称为Topics；每条记录由key, value和时间戳组成；每个Consumer必须属于一个特定的Consumer Group（有默认的GroupId),配置位置在安装目录下的config/consumer.pr...

Posted by Memory on November 9, 2017

关联规则挖掘算法回顾

Apriori算法

数据挖掘中主要用到方法有分类(Classification)、估计(Estimation)、预测(Prediction)、关联规则(Association rules)、聚类(Clustering)等。Apriori算法是一个经典的数据挖掘算法，Apriori算法的用处是挖掘频繁项集的，频繁项集通俗的理解就是找出经常出现的组合，然后根据这些组合最终推出我们的关联规则。算法定义关联规则(...

Posted by Memory on September 6, 2017

CUDA编程基础知识+示例（二）

知识补充

本文内容包含线程网格、线程网格优化方法：尽量避免使用小的线程块，导致无法充分利用硬件。通常线程块中的线程数量最好是一个线程束大小的整数倍，即32的整数倍。两种线程块的布局方式，如32*16的数组，假设调度四个线程块，可以选择长方形布局和正方形布局，但是选择长方形布局要优于正方形布局，可以通过添加如下代码来选择布局 //长方形布局 Dim3 threads_rect（32，...

Posted by Memory on September 3, 2017

Trie树数据结构

前缀树，是一种用于快速检索的多叉树结构

本文内容为转载翻译及汇总，相关文章包括： http://dongxicheng.org/structure/trietree/ https://linux.thai.net/~thep/datrie/datrie.html Trie树基础 Trie is an efficient indexing method. It is indeed also a kind of determ...

Posted by Memory on July 27, 2017

Spark内核架构回顾

Spark注重建立良好的生态系统，不仅支持多种外部文件存储系统，而且提供了多种运行模式。部署在单台机器上时，既可以用本地（Local）模式运行，也可以使用伪分布式模式来运行；当以分布式集群部署是，可以根据自己集群的实际情况选择独立（standalone）运行模式来运行、YARN运行模式、还是Mesos运行模式。 Spark虽然支持多种运行模式，但Spark应用程序的运行架构基本由三部...

Posted by Memory on July 27, 2017

Scala语法初学笔记

基础+Map+Tuple+数组操作

记录一下自己开始学习Scala的基础语法，以后便于自己查阅。基础部分变量声明 var n = 9 输入 line = readLine() do…while() 循环示例： var line = "" do { println("Please input some words blow......") line = readLine() ...

Posted by Memory on July 3, 2017

MPI+CUDA混合编译

结合实例详解MPI主从模式

努力了很久写完了Apriori关联聚类的CUDA程序，为了适应更大数量级的文本文件，我要开始把CUDA_Apriori算法再用MPI并行。因为是文本关联聚类，文件的分割会破坏原本的关联关系，所以实现并行的难度就比较高了。暂时的可行方法如下： K为当前的频繁度，当K>1时其中Lk为K阶频繁项集，各从节点的LK加和得到CGk（全局频繁项候选集），在各个从节点只做...

Posted by Memory on April 28, 2017

在云计算和集群环境中使用CUDA

MPI的使用

使用MPI使CUDA扩展至使用上千个节点，NVIDIA的GPUDirect技术加速了MPI发送（MPI_send)和（MPI_Receive)等关键操作。通过MPI个GPUDirect的使用，利用这些API创建云计算在计算集群上运行的程序。 MPI消息传递接口，定义了并行计算的拓扑结构，用来将一组进场组织成一个MPI会话，MPI会话的尺寸在整个程序执行生命周期中是固定不变的。 MPI中...

Posted by Memory on April 13, 2017

ABOUT ME

每个胜利背后都有许多尝试

✉️ 167310@supinfo.com