Python/Pandas如何处理百亿行，数十列的数据？

处理百亿行、数十列的数据是一项巨大的挑战，它不仅仅是简单地将数据加载到内存中，而需要一套系统性的策略来克服内存限制、提高处理效率和保证计算的稳定性。Python/Pandas本身在内存受限的情况下处理如此大规模的数据会遇到困难，但我们可以结合Pandas与其他工具和技术来应对。

下面将详细讲解Python/Pandas如何处理百亿行、数十列的数据，包括但不限于以下几个方面：

核心挑战：内存限制

内存容量：百亿行的数据量级远超普通计算机的内存容量。即使每行数据很小，累加起来也会非常庞大。
Pandas DataFrame的内存占用： Pandas DataFrame在内存中以NumPy数组的形式存储数据，每个列的类型都会影响其内存占用。例如，`int64`比`int32`占用更多内存，`object`类型的字符串列往往占用最多的内存，因为它们需要额外的指针开销。
操作的中间结果：许多Pandas操作（如排序、分组、连接）会产生中间结果，这些中间结果也可能需要大量的内存。

解决方案与策略

处理百亿行数据需要从多个层面进行优化：

1. 数据读取和预处理
2. 内存优化技术
3. 分布式计算框架
4. 数据库与数据仓库
5. 流式处理
6. 硬件升级

1. 数据读取和预处理

在将数据加载到Pandas之前，进行有效的预处理至关重要。

选择合适的读取方式：
分块读取 (Chunking): Pandas的`read_csv`、`read_parquet`等函数支持`chunksize`参数，可以按指定大小的块读取数据。这样，你可以在处理每一块时将其加载到内存，而不是一次性加载全部数据。

```python
import pandas as pd

假设数据文件是 large_data.csv
chunk_size = 1000000 每块100万行
for chunk in pd.read_csv('large_data.csv', chunksize=chunk_size):
在这里处理每个chunk
例如：
processed_chunk = chunk[chunk['column_name'] > 100]
... further processing ...
如果需要将结果合并，可以使用append或concat
```
使用更高效的文件格式： CSV文件通常效率不高。考虑使用Parquet、ORC等列式存储格式。这些格式在存储和读取时都更高效，尤其是在处理大数据集时。它们支持数据压缩、编码（如Dictionary Encoding、RunLength Encoding），并能高效地进行列裁剪（只读取需要的列）。

```python
示例：将CSV转换为Parquet
可能需要先将CSV分块读取，然后写入Parquet
或直接使用更强大的工具如Dask来处理转换
```

选择性加载列 (Column Selection): 明确知道你需要哪些列，只加载它们。这是最直接有效的内存节省方式。

```python
示例：只读取'col1', 'col3', 'col5'
df = pd.read_csv('large_data.csv', usecols=['col1', 'col3', 'col5'])
```

数据类型优化 (Data Type Optimization):
数值类型：如果你的数值范围允许，尽量使用更小的数值类型，如`int8`, `int16`, `int32`而不是`int64`，`float32`而不是`float64`。
类别类型 (Categorical Data): 对于具有有限唯一值的列（如性别、国家、状态码），将其转换为Pandas的`category`类型可以极大地节省内存。`category`类型将字符串映射到整数索引，显著降低内存占用。

```python
示例：将'country'列转换为category类型
df['country'] = df['country'].astype('category')
```
日期和时间：确保日期时间列使用`datetime64[ns]`类型，而不是`object`。
对象类型 (Object Type): `object`类型在Pandas中通常存储字符串或混合类型，内存占用很高。如果可能，将其转换为特定类型，或者使用`category`类型来代替。

```python
示例：转换object列
假设object列是字符串
df['string_column'] = df['string_column'].astype(str)
如果字符串唯一值很多，consider category
df['string_column'] = df['string_column'].astype('category')
```

数据采样 (Sampling): 如果你的分析允许使用一部分数据，可以进行采样。但要注意采样方法的选择，确保样本能代表总体。

2. 内存优化技术 (Pandas 内部)

即使加载了数据，也可以在Pandas内部进行优化。

使用更高效的函数：某些函数比其他函数更内存友好。例如，`groupby().agg()` 通常比链式操作 `groupby().apply()` 更高效。
避免不必要的中间DataFrame：尽量在一个链式操作中完成多个转换，而不是创建多个中间DataFrame。
删除不再使用的变量：及时释放内存，尤其是在迭代处理块时。

```python
import gc
... processing ...
del df_intermediate
gc.collect() 强制垃圾回收
```
NumPy 和 Pandas 的高效交互：如果可能，直接操作NumPy数组，因为它们通常比Pandas Series或DataFrame的内存效率更高。可以通过`.values`属性访问DataFrame的底层NumPy数组。

3. 分布式计算框架

当单机内存不足以处理数据时，分布式计算是必然的选择。

Dask:
简介： Dask是Python的一个灵活的并行计算库，它扩展了Pandas、NumPy和Scikitlearn等现有库的功能，使其能够处理比内存更大的数据集，并在多核CPU或集群上并行运行。
如何使用： Dask提供了`dask.dataframe`，其API与Pandas非常相似，但它将DataFrame分割成多个Pandas DataFrame（称为 partitions），并在需要时并行处理这些分区。
优势：
内存溢出处理： Dask可以在数据超过内存时，将部分数据写到磁盘，实现“outofcore”计算。
并行化：自动利用多核CPU进行并行处理，显著提高计算速度。
与Pandas兼容：熟悉Pandas的用户可以很容易上手。
支持多种数据源：可以直接读取Parquet、CSV、HDF5等多种格式。

示例：

```python
import dask.dataframe as dd
import pandas as pd

读取整个数据集，Dask会进行分区处理
如果是CSV文件，Dask可以智能地进行分区
ddf = dd.read_csv('large_data.csv')
或者指定分区数以控制内存占用
ddf = dd.read_csv('large_data.csv', blocksize='64MB') 根据内存调整块大小

优化数据类型（与Pandas类似）
ddf['numeric_col'] = ddf['numeric_col'].astype('int32')
ddf['category_col'] = ddf['category_col'].astype('category')

执行类Pandas操作
filtered_ddf = ddf[ddf['value'] > 100]
grouped_ddf = filtered_ddf.groupby('group_key').agg({'value': 'mean'})

计算结果需要调用.compute()
这会触发实际的计算和数据加载
result = grouped_ddf.compute()

print(result)
```
与Pandas结合： Dask可以处理DataFrame的子集（partitions），然后将结果转换为Pandas DataFrame，这样就可以在内存受限的情况下处理计算的一部分。

Apache Spark:
简介： Spark是一个强大的分布式计算系统，用于大规模数据处理。它使用Resilient Distributed Datasets (RDDs) 或 DataFrame/Dataset API。
Python接口： PySpark是Spark的Python API。
优势：
大规模分布式：专门为处理PB级别数据而设计，可在集群上高效运行。
内存计算： Spark会将数据缓存到内存中，提供比MapReduce更快的速度。
丰富的API：提供SQL、Streaming、MLlib（机器学习）、GraphX（图计算）等模块。
如何使用：需要设置Spark环境（Standalone模式或在Hadoop/Kubernetes集群上）。

示例 (PySpark):

```python
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

创建SparkSession
spark = SparkSession.builder
.appName("LargeDataFrameProcessing")
.getOrCreate()

读取数据 (Spark支持多种数据源)
可以从HDFS, S3, 本地文件系统读取
Spark DataFrame的读取是懒惰的
df = spark.read.parquet("hdfs:///path/to/your/data.parquet")
或者 CSV
df = spark.read.csv("hdfs:///path/to/your/data.csv", header=True, inferSchema=True)

Spark DataFrame的API也与Pandas类似
选择列
selected_df = df.select("col1", "col3", "col5")

过滤
filtered_df = selected_df.filter(F.col("value") > 100)

分组聚合
grouped_df = filtered_df.groupBy("group_key").agg(
F.mean("value").alias("avg_value")
)

显示结果 (会触发计算)
grouped_df.show()

如果需要将结果转换为Pandas DataFrame (注意这会将结果收集到Driver节点)
确保结果集大小在Driver内存可控范围内
result_pandas = grouped_df.toPandas()

停止SparkSession
spark.stop()
```
Pandas UDF (User Defined Functions): PySpark支持Pandas UDF，允许你在Spark的分布式环境中利用Pandas的强大功能进行数据处理，通常性能比传统的Rowbased UDF更好。

```python
from pyspark.sql.functions import pandas_udf
from pyspark.sql.types import DoubleType

假设有一个Pandas UDF来应用复杂的Pandas操作
@pandas_udf(returnType=DoubleType())
def complex_pandas_logic(series: pd.Series) > pd.Series:
在这里使用Pandas处理单个分区的数据
return series.apply(lambda x: x 2 if x > 50 else x)

将UDF应用到Spark DataFrame
processed_df = df.withColumn("new_col", complex_pandas_logic(F.col("value")))
```

4. 数据库与数据仓库

对于百亿行级别的海量数据，将数据存放在专门的数据库或数据仓库中，然后利用其强大的查询能力，是更常见且有效的方式。

关系型数据库 (RDBMS) 与列式数据库：
PostgreSQL, MySQL, Oracle等：对于一些分析场景，可以预处理数据，将聚合或转换后的结果存入数据库。直接在这些数据库中进行复杂查询（如JOIN、GROUP BY）通常比在内存中处理更高效，因为它们有优化的查询执行计划、索引和内存管理。
列式数据库 (Columnar Databases)：如ClickHouse, Vertica, Amazon Redshift, Google BigQuery, Snowflake等，它们在存储和查询分析型数据方面表现卓越，尤其适合处理海量数据和执行OLAP（联机分析处理）查询。你可以将数据导入这些系统，然后使用SQL进行分析，再将所需结果通过Pandas读取。

数据仓库 (Data Warehouses)：专门为数据分析设计，拥有高度优化的存储和查询引擎，例如 Snowflake, Amazon Redshift, Google BigQuery。你可以将你的百亿行数据加载到这些服务中，然后使用SQL进行高效的探索性数据分析，最后将分析结果（通常是聚合后的、尺寸更小的数据集）下载到Pandas进行最终的报告或进一步处理。

使用Pandas连接数据库：

```python
import pandas as pd
import sqlalchemy 用于连接数据库

示例：连接到PostgreSQL数据库
需要安装psycopg2: pip install psycopg2binary
db_connection_str = 'postgresql://user:password@host:port/database'
db_connection = sqlalchemy.create_engine(db_connection_str)

从数据库查询数据 (可以指定WHERE子句，只取需要的数据)
query = "SELECT col1, col3, col5 FROM large_table WHERE date_col >= '20230101'"

使用Pandas的read_sql，可以分块读取
chunk_size = 1000000
all_data = []
for chunk in pd.read_sql(query, db_connection, chunksize=chunk_size):
在这里处理每个chunk
all_data.append(chunk) 简单示例，实际可能需要合并或进一步处理

df_from_db = pd.concat(all_data, ignore_index=True)

或者直接将结果集下载到Pandas（如果结果集可以放入内存）
df_small_result = pd.read_sql(query, db_connection)

db_connection.dispose()
```

5. 流式处理 (Streaming)

如果你的数据是连续产生（如日志、传感器数据），并且你不需要一次性处理全部历史数据，可以考虑流式处理。

Kafka + Spark Streaming / Flink / Storm：这些是专门用于处理实时数据流的框架。Pandas本身不是流处理框架，但你可以将流数据通过这些框架处理后，再输出到Pandas能够读取的格式（如CSV文件、Parquet文件或数据库），供Pandas进行事后分析。

6. 硬件升级

虽然软件和算法优化很重要，但有时硬件也是一个不可忽视的因素。

增加内存 (RAM)：这是最直接的解决方案。如果你的数据集最终需要被加载到内存中进行某种操作，那么更大的内存是必须的。
使用更快的存储 (SSD)：尤其是在进行分块读取或使用Dask的outofcore功能时，SSD的读写速度可以显著影响整体性能。
多核CPU / GPU： Dask和Spark等框架可以充分利用多核CPU。对于某些特定类型的计算（如深度学习模型训练或特定矩阵运算），GPU可能提供数量级的加速。

总结与推荐

处理百亿行、数十列的数据，通常需要一个多管齐下的策略：

1. 数据存储格式：优先考虑Parquet，它是列式存储的优秀选择，支持压缩和编码，非常适合大数据。
2. 内存优化：在读取和处理的每一个环节都要考虑数据类型优化和列选择。使用`category`类型、使用更小的数值类型是关键。
3. 计算框架：
对于本地多核机器且数据量略大于内存，Dask是Pandas的最佳扩展，提供了一个平滑的过渡。
对于真正的大规模集群计算，Apache Spark (PySpark)是行业标准，功能强大且稳定。
4. 数据库/数据仓库：将数据加载到ClickHouse, BigQuery, Snowflake等数据仓库中，利用SQL进行探索性分析，再将小规模结果集下载到Pandas，是处理分析型海量数据的高效工作流。
5. 避免一次性加载：始终考虑分块读取和处理，或者利用分布式框架的惰性计算特性。

实际操作流程可能如下：

1. 数据准备阶段：
将原始数据（如CSV）转换为Parquet格式。
在转换过程中或之后，尽可能地优化数据类型（如为具有有限唯一值的字符串列使用`category`）。
如果可能，在数据源端（如数据库）就进行一些基本的过滤和聚合，减少后续需要处理的数据量。

2. 数据分析阶段：
小规模探索：如果数据量勉强能通过分块读取在单机上处理，先用Pandas `chunksize` 进行初步探索，确定数据类型和分布。
大规模处理：
方案 A (Dask): 使用Dask DataFrame直接读取Parquet文件，并执行分析任务。这是从Pandas迁移到大数据处理的最自然方式。
方案 B (Spark): 将Parquet文件上传到HDFS或云存储，然后使用PySpark进行分布式计算。这是更健壮和可扩展的方案。
方案 C (数据库/数据仓库): 将Parquet文件加载到ClickHouse或云数据仓库（如BigQuery/Snowflake）中，然后使用SQL进行分析。这是最适合复杂OLAP查询和探索性数据分析的方案。

3. 结果整合：
将分布式计算或数据库查询的最终结果（通常是聚合后的、尺寸显著减小的数据集）下载到Pandas DataFrame中，进行最终的报告生成、可视化或进一步的机器学习建模。

请记住，处理百亿行数据是一个系统工程，需要对数据量、计算需求、可用的资源和技术栈有清晰的认识，并选择最适合的工具组合。

网友意见

Pandas并不是什么场景都适用啊，应该灵活变化！可以参考H2O.ai维护的一个项目，告诉您，除了pandas，还有很多武器可以玩。

待评估软件

项目目前已收录Python/R/Julia中13种的工具 ，随着工具版本迭代、新工具的出现，该项目也在持续更新，其它工具如AWK、Vaex、disk也在陆续加入到项目中。

       7种Python工具   dask  pandas  datatable  cuDF  Polars  Arrow  Modin  2种R工具  data.table  dplyr  1种Julia工具  DataFrames.jl  3种其它工具  spark  ClickHouse  duckdb

评估方法

分别测试以上工具在在0.5GB、5GB、50GB数据量下执行groupby、join的效率，

数据量

0.5GB 数据 10,000,000,000行、9列
5GB 数据 100,000,000,000行、9列
50GB 数据1,000,000,000,000行、9列

groupby性能

比较以下各种需求的效率，

详细代码，见每个柱子图上方，

join性能

比较以下各种需求的效率，

详细代码，见每个柱子图上方，

评估结果

groupby

可以看到Python中的Polars、R中的data.table、Julia中的DataFrame.jl等在groupby时是一个不错的选择，性能超越常用的pandas，详细，

join

同样可以看到Python中的Polars、R中的data.table在join时表现不俗，详细，

小结

R中的data.table、Python中的Polars、Julia中的DataFrame.jl表现连续出色，后续可以用起来，常用的pandas并无亮点～

参考资料

更多好文❤️❤️： @pythonic生物人

Python/Pandas如何处理百亿行，数十列的数据？

网友意见

评估方法

数据量

groupby性能

join性能

评估结果

groupby

join

小结

参考资料

类似的话题

Python/Pandas如何处理百亿行，数十列的数据？

学习python中的pandas有没有好的教程推荐？

R 和 Python (numpy scipy pandas) 用于统计学分析，哪个更好？

Python中除了matplotlib外还有哪些数据可视化的库？

Python 的练手项目有哪些值得推荐？

python是对面向对象编程友好的语言吗？有没有改进空间？

Python 语言的强制缩进是败笔吗？

Python 2 和 Python 3 有哪些主要区别？

Python 不区分变量定义和赋值，是否是设计上的缺陷？

Python 常用的标准库以及第三方库有哪些？

Python 有哪些黑魔法？

Python和Go语言都这么火，你们觉得哪个前景更好？

python适合什么年龄自学?

python怎么跳出with...as?

python这个按分类转换列表如何写？

python中怎么利用len（x）补零?

Python如何实现list元素的两两相加并返回最大值？

Python如何将正则匹配到的多个位置替换成为不同内容？

Python 怎么二次封装一个系统函数？

python爬虫如何处理.js链接？