liushuainudt · April 3, 2023 15:16 · liushuainudt · Apr 23, 2019 · liushuainudt · Apr 3, 2023
diff --git a/faster_toPandas.py b/faster_toPandas.py
 import pandas as pd
 from pyspark.sql import DataFrame as SparkDataFrame
 from typing import Optional

 def _map_to_pandas(rdds):
    """Converts each partition of the RDD to a Pandas DataFrame."""
    return [pd.DataFrame(list(rdds))]

 def toPandas(df: SparkDataFrame, n_partitions: Optional[int] = None) -> pd.DataFrame:
    """
    Converts a PySpark DataFrame to a Pandas DataFrame efficiently.
    The PySpark DataFrame is repartitioned if `n_partitions` is specified.

    Parameters
    ----------
    df : pyspark.sql.DataFrame
        The input PySpark DataFrame to be converted to Pandas DataFrame.
    n_partitions : int, optional
        The number of partitions to use for repartitioning the PySpark DataFrame, by default None.

    Returns
    -------
    pandas.DataFrame
        The resulting Pandas DataFrame.
    """
    # Repartition the PySpark DataFrame if a specific number of partitions is provided.
    if n_partitions is not None:
        df = df.repartition(n_partitions)
    
    # Apply the '_map_to_pandas' function to each partition of the RDD and collect the result.
    df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()
    
    # Concatenate the list of Pandas DataFrames into a single Pandas DataFrame.
    df_pand = pd.concat(df_pand)
    
    # Set the column names of the Pandas DataFrame based on the input PySpark DataFrame.
    df_pand.columns = df.columns
    
    return df_pand
	import pandas as pd
	from pyspark.sql import DataFrame as SparkDataFrame
	from typing import Optional

	def _map_to_pandas(rdds):
	"""Converts each partition of the RDD to a Pandas DataFrame."""
	return [pd.DataFrame(list(rdds))]

	def toPandas(df: SparkDataFrame, n_partitions: Optional[int] = None) -> pd.DataFrame:
	"""
	Converts a PySpark DataFrame to a Pandas DataFrame efficiently.
	The PySpark DataFrame is repartitioned if `n_partitions` is specified.

	Parameters
	----------
	df : pyspark.sql.DataFrame
	The input PySpark DataFrame to be converted to Pandas DataFrame.
	n_partitions : int, optional
	The number of partitions to use for repartitioning the PySpark DataFrame, by default None.

	Returns
	-------
	pandas.DataFrame
	The resulting Pandas DataFrame.
	"""
	# Repartition the PySpark DataFrame if a specific number of partitions is provided.
	if n_partitions is not None:
	df = df.repartition(n_partitions)

	# Apply the '_map_to_pandas' function to each partition of the RDD and collect the result.
	df_pand = df.rdd.mapPartitions(_map_to_pandas).collect()

	# Concatenate the list of Pandas DataFrames into a single Pandas DataFrame.
	df_pand = pd.concat(df_pand)

	# Set the column names of the Pandas DataFrame based on the input PySpark DataFrame.
	df_pand.columns = df.columns

	return df_pand
No results found