Spark Release 1.4.0-白红宇

Spark Release 1.4.0

阅读量：797 次

发布时间：2023-04-04

本文共 1148 字，大约阅读时间需要 3 分钟。

Spark 1.4.0发布，带来R API和多项改进

Spark 1.4.0作为1.X线第五个版本，正式发布。这一版本增强了Spark的核心功能，并扩展了MLlib和Spark Streaming，展现了大型项目的协作成果。超过210名贡献者来自70多家机构，完成了1000多个补丁的贡献。

主要更新亮点

Spark 1.4.0的发布带来了多项重要改进，涵盖核心功能、数据处理框架和机器学习库等多个方面：

1. Spark Core

可视化和监控：引入了对Spark DAG的可视化支持，提升了操作性和监控能力。

Python 3支持：完善了对Python 3的支持，进一步扩大了开发者生态。

性能优化：通过Tungsten项目提升了性能，优化了Shuffle机制。

YARN和Mesos：增强了与YARN的集成，提升了长运行应用的安全性，并支持Mesos的集群模式。

Docker支持：在Mesos上引入了Docker支持，简化了容器化部署。

2. DataFrame API与Spark SQL

ORCFile支持：新增了对ORCFile格式的支持，提升数据存储效率。

优化Join操作：引入了排序合并Join，优化了大规模Join操作。

窗口函数：新增了窗口函数，支持在DataFrames和Spark SQL中进行多种分析。

错误报告：改进了错误信息，提升了故障排查效率。

3. MLlib

机器学习管线：ML pipelines API正式毕业，提供了更稳定的机器学习流程。

新算法：引入了多种新算法，如L1/L2正则化的逻辑回归、OneVsRest分类等。

PySpark支持：增强了对PySpark的支持，使机器学习流程更加灵活。

4. Spark Streaming

监控和调试：提升了流数据的监控能力，提供了更详细的调试信息。

Kafka和Kinesis支持：增强了对Kafka和Kinesis的支持，提升了实时数据处理能力。

Python API：提供了Python API，简化了流数据处理的开发。

已知问题

尽管Spark 1.4.0带来了诸多改进，但仍有一些已知问题，如Python sortBy方法的性能问题和ML pipeline组件的不稳定性等，这些将在1.4.1版本中修复。

开源贡献

Spark 1.4.0的开发凝聚了超过1000个补丁，来自于全球70多家机构的210多名贡献者。他们的努力使Spark成为一个成熟且可靠的大数据处理框架。

总结

Spark 1.4.0的发布标志着大数据处理领域的一次重要进步。无论是核心优化还是新功能的推出，都进一步巩固了Spark在机器学习、数据分析和流数据处理领域的地位。如果你想了解更多信息，可以访问Spark官方文档。

转载地址：http://ejrfk.baihongyu.com/

你可能感兴趣的文章

Mysql8 数据库安装及主从配置 | Spring Cloud 2

mysql8 配置文件配置group 问题 sql语句group不能使用报错解决 mysql8.X版本的my.cnf配置文件 my.cnf文件能够使用的my.cnf配置文件

MySQL8.0.29启动报错Different lower_case_table_names settings for server (‘0‘) and data dictionary (‘1‘)

MYSQL8.0以上忘记root密码

Mysql8.0以上重置初始密码的方法

mysql8.0新特性-自增变量的持久化

Mysql8.0注意url变更写法

Mysql8.0的特性

MySQL8修改密码报错ERROR 1819 (HY000): Your password does not satisfy the current policy requirements

MySQL8修改密码的方法

Mysql8在Centos上安装后忘记root密码如何重新设置

Mysql8在Windows上离线安装时忘记root密码

MySQL8找不到my.ini配置文件以及报sql_mode=only_full_group_by解决方案

mysql8的安装与卸载

MySQL8，体验不一样的安装方式！

MySQL: Host '127.0.0.1' is not allowed to connect to this MySQL server

Mysql: 对换（替换）两条记录的同一个字段值

mysql:Can‘t connect to local MySQL server through socket ‘/var/run/mysqld/mysqld.sock‘解决方法

MYSQL:基础——3N范式的表结构设计

MYSQL:基础——触发器