当前位置：首页 > 大数据 > 正文

python大数据基础实训心得

大数据
2024-06-23 09:58:34
7789

【快Python】#10：使用Dask分析大数据Dask和Spark共同突破了大数据分析领域Python生态系统的界限。不仅支持大规模数据处理，还兼容NumPy、Concurrent.futures等多种接口。本文探讨了Dask、分布式调度和超内存数据处理的基本原理，并逐步揭示了如何使用它。
首先，我们从基本概念开始，通过示例学习DaskDataFrame接口，并了解与Pandas的语义差异。接下来，我们将研究超内存数据的分片策略和最佳实践。 Dask的分布式调度器展示了HPC和GPU服务器等环境中的智能任务分配功能。
在考察Dask的执行模型时，与Panda等库的差异尤为重要。我们分析了美国所有50个州的税收数据，并使用Dask比较了Panda的表现并研究了财产税率，但仍然在Panda中处理了一个小数据集以进行基准比较。
读取并处理非数字数据并将其转换为DaskDataFrame。我们重点关注Dask的延迟执行功能，该功能创建任务图并仅在计算期间实时执行它们。我们通过从Survey_Year中提取年份、创建新列等来具体演示这一点。
在分析Dask运行性能时，我们关注的是数据粒度如何影响性能，而不是特定平台。我们比较了不同任务的复杂性，特别是在处理超内存数据时，例如计算金额列中的税率。
针对小规模数据，进行了分片处理，包括从Amount列中提取信息、创建Year列以及可视化执行图。分片数据，15KB被分成3个5KB的碎片，体现了Dask的并行处理优势。
Dask通过Pandas或NumPy分片实现数据分区，但需要避免不必要的重复计算。例如，Amount列需要进行解析和维护，以减少后续迭代。尽管数据分片带来的并行查询优势非常显着，但节点之间数据传输的成本也不容忽视，您必须明智地选择何时继续。
在优化计算过程中，我们继续对税收进行计算和排序，并比较了Dask和Pandas在分布式数据处理上的差异。例如，如果我们将Amount列转换为千，图10.5将显示Dask任务图，清楚地展示了高效的并行执行。
了解了Dask任务创建之后，我们转向分布式调度。 Dask的分布式调度器支持多机器和云服务，并提供多线程和多进程选项。例如，在一台四核八线程的机器上配置四个任务组件，每个组件有一个线程，内存限制为1GB。同时使用Cython或Numba进行性能优化。这在处理大图像时尤其有效。
我们使用Dask的客户端接口来创建附加到调度程序的实例并验证其基础设施，强调跨异构集群的库版本一致性的重要性。接下来，我们使用Dask.distributed在异构集群上运行代码，包括处理分形几何点集，通过递归公式计算位置矩阵，以及优化大规模图像处理，例如将1000x1000的照片分割成块以减少数量的操作。
最后，我们使用Dask初始化代码来处理大规模分形图像，并比较不同持久化策略的时间消耗。当出现内存溢出问题时，解决方案是升级硬件或优化内存管理。本文的重点是了解Dask的基本概念。掌握这些技能将使您能够有效地处理各种大数据处理问题，无论是在独立环境还是分布式环境中。