scala算法

发布时间: 2023-02-23 18:28:10

㈠大数据要学哪些课程

《大数据实训课程资料》网络网盘资源免费下载

链接:https://pan..com/s/1RiGvjn2DlL5pPISCG_O0Sw

?pwd=zxcv 提取码:zxcv

㈡ scala的map存储散列算法是字典顺序吗

不是，那个效率太低了
一、使用拉链式存储
这个以 java 中的 HashMap 为例进行讲解。 HashMap 的内部有个数组 Entry[] table，这个数组就是存放数据的。
Entry 类的定义大致是 :
class Entry {
Object key
Object value
Entry next;
}
所以， Entry[] table 的每个元素都是一个链表，即 HashMap 的内部存储是数组 + 链表，即拉链式存储。
当往 HaspMap 中 put(key, value) 数据时，先进行 key.hashCode() & (table.length() - 1) ，得到一个小于 table.length() 的值，称为 index，则这个新的 Entry 就属于 table[index] 这个链表了 ( 如果链表还不存在，则把这个新的 Entry 作为链表的头部了 )；然后开始从前往后遍历 table[index] 这个链表，如果 key.equals( entry.key )，那么表示这个 key 已经有了旧值，则替换 value 的值即可；
否则，把这个新的 Entry 插入到 table[index] 链表的最前面.
以上就是 HashMap 的存储方式介绍了，而且可以知道，作为 HashMap 的 Key，它的 hashCode() 和 equals() 方法都被使用了
二、数组存储
1.分散的数组存储
这个以 ThreadLocal 和 ThreadLocal.Values 类为例进行讲解。 Values 类里面有两个变量， Object[] table, 和 mask ， table 就是存储数据的数组了，table 的长度是 2 的倍数， mask 的值就是 table.length - 1 ; 这一点和 HashMap 的内部存储很像。不过 table 中的每个元素就不是链表了。
当往 Values 中进行 put(key, value) 时，先进行 key.hashCode & mask ，得到一个小于 table.length 的值，称为 index (与上面的 HashMap 好像，哈哈), 然后去检查 table[index] 的值，如果不存在，则在 table[index] 处放入 key， table[index + 1] 处放入 value; 如果已经存在了，且 key.equals( oldKey ) 不成立，即发生了冲突，那么 index = index + 2 ( 此处是 + 2，因为 key ，value 两个是挨着放的，一个元素占俩坑 ) ; 往下一地方找找，如果再冲突，再找，直到找到一个可插入的地方，把 table[index] = key, table[index + 1] = value;
有两处需要注意:
key.hashCode() 必须是 2 的倍数, 否则 index 的值有可能为奇数，如此就可能发生冲突了. 可参考 ThreadLocal.hash 这个成员变量
table 内部的数据是分散着存储的.
2.连续的数组存储
这个以 Android 中新增的 ArrayMap 为例进行分析( 据说没 ArrayMap 是用来替换 HashMap 的哈 ), ArrayMap 中有两个主要变量， int[] mHashes, Object[] mArrays.
mHashes 主要是存放 key 的 hash 值的， mArrays 是用来存放数据的，它也是奇数存放 key ，偶数存放 value ， key 和 value 顺序排列( 这个和 TheadLocal.value 中的 table 存储方式很像 )。 mArrays 的长度是 mHashes 的 2 倍，毕竟 mArrays 是 key, value 都要存嘛~
mHashes 中存放 key 的 hash 值，是从小到大排列的，如果有多个 key 的 hash 值有一样的，那么就挨着排列
当往 ArrayMap 中进行 put(key, value) 时，先 int hash = key.hashCode, 然后通过二分查找在 mHashes 中查找 hash 的位置( 如果里面有，就返回，如果无，就先找到最接近的位置，然后进行取反操作并返回 ) index，如果 index > 0 ，那么再去 mArrays 中 2 * index 处获取 key 值，比对两个 key 是否 equals(), 如果不相等，那么再分别向上、向下查找附近相同 hash 值的 key ，看是否有 equals() 的 key, 若有，则替换，若无，则插入; 如果 index < 0 ，表示之前没有相等 hash 的 key 插入过，那么 index = ~index( 再次取反，就是个正数了，代办要插入的位置)，再在 mHashes 的 index 处插入 hash，在 mArrays 的 2 * index 处插入 key, 在 (2 * index ) + 1 处，插入 value .
注意：
mHashes 和 mArrays 在插入新数据时，都需要把插入位置后面的数据向后移动一个单位，这个对于频繁插入、删除的动作来说消耗比较大.
key 的 hash 大小决定了插入的顺序
3.以数字为 key 的数组存储
这类的 map 比较特殊，key 是数字类型。这个以 Android 中新增的 SparseArray 进行分析。 SparseArray 中有两个主要变量， int[] mKeys 和 Object[] mValues ， mKeys 是存放 key 的，是个有序数组，从小到大排列； mValues 是与 mKeys 一一对应的 value 值集合. mKeys 和 mValues 的长度是相等的。
当往 SparseArray 中 put(key, value) 时，先用二分查找在 mKeys 中查找 key 所在的位置 (如果找到，返回；如果没有找到，则找到它应该插入的位置，取反并返回) ，记为 index， index > 0 ，则直接在 mValues[index] 处替换 value; 如果 index < 0 ，则 index = ~index，即取反，然后在 mKeys 的 index 处插入 key ，在 mValues[index] 处插入 value ，之前的数据自 index 处后移一个单位。
注意:
mKeys 和 mArrays 的数据插入时，都是要进行数据移动的，对频繁插入、删除的 map 来说消耗很大.
最后了，对它们的优缺点做些对比。
HashMap : 内存占用较大，增、删的效率较高，改、查的效率一般
ThreadLocal.Values : 内存占用一般，当数据量比较小时，增删改查的效率高；数据量大时，增删改查效率一般
ArrayMap: 内存占用较小，改、查的效率高，增、删的效率较低
SparseArray : 内存占用较小，改、查的效率高，增、删的效率低，且主键是数字
最后，我们不评判哪种存储方式好，一切都要以实际情况实际分析，找出最符合的那种存储，哈哈~

㈢ Murmur哈希算法

说到哈希算法，可能大部分人都会不自觉得想到 md 和 sha 系列，在这之前，我就是这样的，因为他们意味着流行安全和稳定。但是，最近我知道了一款另类的流行的哈希函数， 这款哈希函数广泛应用于分布式系统-Hadoop/Lucence等等，原因就是因为它速度快而且散列效果好 ，这个哈希算法就是 MurmurHash。

哈希系列比较流行的有三个系列，分别是 MD/SHA 和 MAC 系列，但是这些系列都是比较安全，虽然 MD5 和 SHA-1 已经被王小云教授碰撞了，但是相对我们平时使用的直接简单求模这种还是比较安全的，相对安全带来的负面效果就是 计算量还是挺大的，而且不保证哈希结果的均匀 。而在分布式环境下，为了资源的合理利用，我们需要的更多是均匀，因为是内部散列的作用，所以哈希安全我们并不那么在乎，所以在这种情境下，2008 才被发明的 MurmurHash 成为了分布式中的宠儿，深受 Google 系的喜爱。

MurmurHash 当前最新的版本是 MurmurHash3，它能够产生出32-bit或128-bit哈希值。除了我们能够猜到的不再使用的 mmh1 以及还在使用的 mmh2 之外，还有好些变种，不过都是针对平台优化的。

Murmur哈希的算法确实比较简单，它的计算过程其实就是它的名字，MUltiply and Rotate，因为它在哈希的过程要经过多次MUltiply and Rotate，所以就叫 MurMur 了。

算法原理可参考维基网络： https://zh.wikipedia.org/wiki/Murmur%E5%93%88%E5%B8%8C

Scala API自身是有MurmurHash算法的实现的（ scala.util.hashing.MurmurHash3 ），返回值是int，32位。

spark也广泛采用了Murmur哈希算法，可以看一个在sparksql中的例子，在TreeNode类中有：

之所以调用 proctHash 方法是因为TreeNode继承自scala的 Proct 特质（有兴趣的同学可以通过反编译查看到，scala 的Case class类实现了scala.Proct和scala.Serializable接口（Proct和Serializable都是Traits）），而且有很多case class 类继承TreeNode类。

参考：
https://liqiang.io/post/murmurhash-introction
https://leibnizhu.github.io/2017/01/19/Scala%E5%AE%9E%E7%8E%B064%E4%BD%8D%E7%9A%84MurmurHash%E5%87%BD%E6%95%B0/index.html

㈣ Scala 使用MD5加密算法

}

㈤我也已经25岁其实就有转行的打算了，想转数据分析大数据行业，我大学本科是和这个专业相关的，

读研期间多跟着导师做项目，有些导师手上有很多横向项目，是参与实践的良好途径，其实有人读研期间跟上班一样忙，不要让学校时光虚度。另外，你年龄不小了，可以在读书期间思考以后就业的问题，读书时成家政策也支持，当然有合适的结婚对象才行。

㈥做大数据分析一般用什么工具呢

Java ：只要了解一些基础即可，做大数据不需要很深的Java 技术，学java SE 就相当于有学习大数据。基础
Linux：因为大数据相关软件都是在Linux上运行的，所以Linux要学习的扎实一些，学好Linux对你快速掌握大数据相关技术会有很大的帮助，能让你更好的理解hadoop、hive、hbase、spark等大数据软件的运行环境和网络环境配置，能少踩很多坑，学会shell就能看懂脚本这样能更容易理解和配置大数据集群。还能让你对以后新出的大数据技术学习起来更快。
好说完基础了，再说说还需要学习哪些大数据技术，可以按我写的顺序学下去。
Hadoop：这是现在流行的大数据处理平台几乎已经成为大数据的代名词，所以这个是必学的。Hadoop里面包括几个组件HDFS、MapRece和YARN，HDFS是存储数据的地方就像我们电脑的硬盘一样文件都存储在这个上面，MapRece是对数据进行处理计算的，它有个特点就是不管多大的数据只要给它时间它就能把数据跑完，但是时间可能不是很快所以它叫数据的批处理。
记住学到这里可以作为你学大数据的一个节点。
Zookeeper：这是个万金油，安装Hadoop的HA的时候就会用到它，以后的Hbase也会用到它。它一般用来存放一些相互协作的信息，这些信息比较小一般不会超过1M，都是使用它的软件对它有依赖，对于我们个人来讲只需要把它安装正确，让它正常的run起来就可以了。
Mysql：我们学习完大数据的处理了，接下来学习学习小数据的处理工具mysql数据库，因为一会装hive的时候要用到，mysql需要掌握到什么层度那?你能在Linux上把它安装好，运行起来，会配置简单的权限，修改root的密码，创建数据库。这里主要的是学习SQL的语法，因为hive的语法和这个非常相似。
Sqoop：这个是用于把Mysql里的数据导入到Hadoop里的。当然你也可以不用这个，直接把Mysql数据表导出成文件再放到HDFS上也是一样的，当然生产环境中使用要注意Mysql的压力。
Hive：这个东西对于会SQL语法的来说就是神器，它能让你处理大数据变的很简单，不会再费劲的编写MapRece程序。有的人说Pig那?它和Pig差不多掌握一个就可以了。
Oozie：既然学会Hive了，我相信你一定需要这个东西，它可以帮你管理你的Hive或者MapRece、Spark脚本，还能检查你的程序是否执行正确，出错了给你发报警并能帮你重试程序，最重要的是还能帮你配置任务的依赖关系。我相信你一定会喜欢上它的，不然你看着那一大堆脚本，和密密麻麻的crond是不是有种想屎的感觉。
Hbase：这是Hadoop生态体系中的NOSQL数据库，他的数据是按照key和value的形式存储的并且key是唯一的，所以它能用来做数据的排重，它与MYSQL相比能存储的数据量大很多。所以他常被用于大数据处理完成之后的存储目的地。
Kafka：这是个比较好用的队列工具，队列是干吗的?排队买票你知道不?数据多了同样也需要排队处理，这样与你协作的其它同学不会叫起来，你干吗给我这么多的数据(比如好几百G的文件)我怎么处理得过来，你别怪他因为他不是搞大数据的，你可以跟他讲我把数据放在队列里你使用的时候一个个拿，这样他就不在抱怨了马上灰流流的去优化他的程序去了，因为处理不过来就是他的事情。而不是你给的问题。当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS，这时你可以与一个叫Flume的工具配合使用，它是专门用来提供对数据进行简单处理，并写到各种数据接受方(比如Kafka)的。
Spark：它是用来弥补基于MapRece处理数据速度上的缺点，它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘。特别适合做迭代运算，所以算法流们特别稀饭它。它是用scala编写的。Java语言或者Scala都可以操作它，因为它们都是用JVM的。

㈦如何将普通算法改为支持scala out

Java 和 Scala 都支持变参方法, 写在最后的位置上，最基本的调用方式也都是一样的，一个个罗列过去。也可以传入数组参数，因为变参本质上就是一个数组，就是把 ... 开始位置到最后一个参数都收纳到数组中去，所以变参之所以要放在最后的位置上，且一个方法中最多只能有一个变参类型。这里主要是对比 Scala 对变参方法的调用，基本调用法当然是没问题的，但是在传入数组作为变参的参数列表与 Java 相对时就稍有变化了。
另外提一下，如果想传入 List 作为变参列表，而不是整体作为变参的第一个元素就是调用集合的 toArray() 方法转换成一个数组传入。
下面看 Java 中对变参方法的调用，参数列表和数组
public class JavaVarArgs {
public static void main(String[] args) {
foo("a", "b", "c");
foo(new String[]{"d", "e"});
}

public static void foo(String...params) {
System.out.println(params + " : " + params.length);
for(String s: params) {
System.out.println(s);
}
}
}

从输出结果能够很明白的看出变参 params 实际上就是一个数组

[Ljava.lang.String;@3f91beef : 3
a
b
c
[Ljava.lang.String;@1a6c5a9e : 2
d
e

我们知道 Scala 和 Java 之间可以互相调用，现在写一段 Scala 代码来调用 foo() 方法
object ScalaVarArgs {

def main(args: Array[String]) {
JavaVarArgs.foo("a", "b", "c")

// JavaVarArgs.foo(Array[String]("d", "e"))
}
}

阅读全文

热点内容

java返回this 发布：2025-10-20 08:28:16 浏览：740

制作脚本网站发布：2025-10-20 08:17:34 浏览：1002

python中的init方法发布：2025-10-20 08:17:33 浏览：707

图案密码什么意思发布：2025-10-20 08:16:56 浏览：872

怎么清理微信视频缓存发布：2025-10-20 08:12:37 浏览：770

c语言编译器怎么看执行过程发布：2025-10-20 08:00:32 浏览：1117

邮箱如何填写发信服务器发布：2025-10-20 07:45:27 浏览：344

shell脚本入门案例发布：2025-10-20 07:44:45 浏览：221

怎么上传照片浏览上传发布：2025-10-20 07:44:03 浏览：907

python股票数据获取发布：2025-10-20 07:39:44 浏览：867

scala算法

与scala算法相关的资讯