AlexBaitov · May 24, 2021 07:40
diff --git a/00_readme.md b/00_readme.md
diff --git a/01_stackoverflow.scala b/01_stackoverflow.scala
 // https://stackoverflow.com/a/61863579/3251389

 scala> :paste
 // Entering paste mode (ctrl-D to finish)

 import org.apache.spark.sql.{DataFrame, SparkSession}
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.types._
 import scala.annotation.tailrec
 import scala.util.Try

 implicit class DFHelpers(df: DataFrame) {
    def columns = {
      val dfColumns = df.columns.map(_.toLowerCase)
      df.schema.fields.flatMap { data =>
        data match {
          case column if column.dataType.isInstanceOf[StructType] => {
            column.dataType.asInstanceOf[StructType].fields.map { field =>
              val columnName = column.name
              val fieldName = field.name
              col(s"${columnName}.${fieldName}").as(s"${columnName}_${fieldName}")
            }.toList
          }
          case column => List(col(s"${column.name}"))
        }
      }
    }

    def flatten: DataFrame = {
      val empty = df.schema.filter(_.dataType.isInstanceOf[StructType]).isEmpty
      empty match {
        case false =>
          df.select(columns: _*).flatten
        case _ => df
      }
    }
    def explodeColumns = {
      @tailrec
      def columns(cdf: DataFrame):DataFrame = cdf.schema.fields.filter(_.dataType.typeName == "array") match {
        case c if !c.isEmpty => columns(c.foldLeft(cdf)((dfa,field) => {
          dfa.withColumn(field.name,explode_outer(col(s"${field.name}"))).flatten
        }))
        case _ => cdf
      }
      columns(df.flatten)
    }
 }

 // Exiting paste mode, now interpreting.

 import org.apache.spark.sql.{DataFrame, SparkSession}
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.types._
 import scala.annotation.tailrec
 import scala.util.Try
 defined class DFHelpers
diff --git a/01_stackoverflow_my_remarks.scala b/01_stackoverflow_my_remarks.scala
 scala> :paste
 // Entering paste mode (ctrl-D to finish)

 import org.apache.spark.sql.{DataFrame, SparkSession}
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.types._
 import scala.annotation.tailrec
 import scala.util.Try

 implicit class DFHelpers(df: DataFrame) {
    def columns = {
      val dfColumns = df.columns.map(_.toLowerCase) // <-- is not used further
      df.schema.fields.flatMap { data =>
        data match {
          case column if column.dataType.isInstanceOf[StructType] => {
            column.dataType.asInstanceOf[StructType].fields.map { field =>
              val columnName = column.name
              val fieldName = field.name
              col(s"${columnName}.${fieldName}").as(s"${columnName}_${fieldName}")
            }.toList
          }
          case column => List(col(s"${column.name}"))
        }
      }
    }

    def flatten: DataFrame = {
      val empty = df.schema.filter(_.dataType.isInstanceOf[StructType]).isEmpty
      empty match {
        case false =>
          df.select(columns: _*).flatten
        case _ => df
      }
    }
    def explodeColumns = {
      @tailrec
      def columns(cdf: DataFrame):DataFrame = cdf.schema.fields.filter(_.dataType.typeName == "array") match {
        case c if !c.isEmpty => columns(c.foldLeft(cdf)((dfa,field) => {
          dfa.withColumn(field.name,explode_outer(col(s"${field.name}"))).flatten // <-- no need to flatten array without nested struct type
        }))
        case _ => cdf
      }
      columns(df.flatten)
    }
 }

 // Exiting paste mode, now interpreting.

 import org.apache.spark.sql.{DataFrame, SparkSession}
 import org.apache.spark.sql.functions._
 import org.apache.spark.sql.types._
 import scala.annotation.tailrec
 import scala.util.Try
 defined class DFHelpers
diff --git a/02_typed_explode_and_snakify.scala b/02_typed_explode_and_snakify.scala
 package com.example.utils.syntax

 import org.apache.spark.sql.{Column, DataFrame}
 import org.apache.spark.sql.functions.{col, explode_outer}
 import org.apache.spark.sql.types.{ArrayType, StructField, StructType}

 import scala.annotation.tailrec

 implicit class DFHelpers(df: DataFrame) {
  def snakifyColumns: Array[Column] = {
    df.schema.fields.flatMap { structField: StructField =>
      structField.dataType match {
        case dataType: StructType => dataType.fields.map { field =>
          val columnName = structField.name
          val fieldName = field.name
          col(s"${columnName}.${fieldName}").as(s"${columnName}_${fieldName}")
        }.toList
        case _ => col(s"${structField.name}") :: Nil
      }
    }
  }

  @tailrec
  final def flattenStruct: DataFrame = {
    if (df.schema.fields.exists(_.dataType.isInstanceOf[StructType])) {
      df.select(df.snakifyColumns: _*).flattenStruct
    } else df    
  }

  def explodeColumns: DataFrame = {
    @tailrec
    def explodeRecursively(cdf: DataFrame): DataFrame = {
      cdf.schema.fields.collect {
        case field@StructField(_, ArrayType(_, _), _, _) => field
      }.toList match {
        case Nil => cdf
        case l: List[StructField] =>
          val explodedDf: DataFrame = l.foldLeft(cdf)((dfa, field) =>
            dfa.withColumn(field.name, explode_outer(col(s"${field.name}")))
          )
          val flattenedDf: DataFrame = l.collectFirst {
            case _@StructField(_, ArrayType(_: StructType, _), _, _) => explodedDf.flattenStruct
          }.getOrElse(explodedDf)
          explodeRecursively(flattenedDf)
      }
    }

    explodeRecursively(df.flattenStruct)
  }
 }
diff --git a/03_syntax.scala b/03_syntax.scala
 package ru.cft.ml.spark.utils

 package object syntax {
  object all extends DatasetSyntax
  object dataset extends DatasetSyntax
 }
diff --git a/03_typed_final.scala b/03_typed_final.scala
 package com.example.utils.syntax

 import org.apache.spark.sql.{Column, DataFrame}
 import org.apache.spark.sql.functions.{col, explode_outer}
 import org.apache.spark.sql.types.{ArrayType, StructField, StructType}

 import scala.annotation.tailrec

 // recursive Schema snakify without calling df.select recursively
 trait DatasetSyntax {
  implicit class DatasetFlattenNestedColumns[A](df: Dataset[A]) {
    def snakifyColumns(delimiter: String = "_", prefix: Option[String] = None): Array[Column] = {
      def flattenSchema(schema: StructType, delimiter: String, prefix: Option[String], aliasPrefix: Option[String]): Array[Column] = {
        schema.fields.flatMap(field => {
          val colName = prefix.map(_ + "." + field.name).getOrElse(field.name)
          val aliasName = aliasPrefix.map(_ + delimiter + field.name).getOrElse(field.name)

          field match {
            case StructField(_, struct: StructType, _, _) => flattenSchema(struct, delimiter, Some(colName), Some(aliasName))
            case _ => Array(col(colName).as(aliasName))
          }
        })
      }

      flattenSchema(df.schema, delimiter, prefix, prefix)
    }

    final def flattenStruct: DataFrame = {
      df.select(df.snakifyColumns(): _*)
    }

    def explodeColumns: DataFrame = {
      @tailrec
      def explodeRecursively(cdf: DataFrame): DataFrame = {
        cdf.schema.fields.collect {
          case field@StructField(_, ArrayType(_, _), _, _) => field
        }.toList match {
          case Nil => cdf
          case l: List[StructField] =>
            val explodedDf: DataFrame = l.foldLeft(cdf)((dfa, field) =>
              dfa.withColumn(field.name, explode_outer(col(s"${field.name}")))
            )
            val flattenedDf: DataFrame = l.collectFirst {
              case _@StructField(_, ArrayType(_: StructType, _), _, _) => explodedDf.flattenStruct
            }.getOrElse(explodedDf)
            explodeRecursively(flattenedDf)
        }
      }

      explodeRecursively(df.flattenStruct)
    }
  }
 }
diff --git a/09_flatten_only_schema.scala b/09_flatten_only_schema.scala
 implicit class DataframeOnlySchemaFlattening(df: DataFrame) {

  def explodeSchema = {
    def flattenSchema(schema: StructType, prefix: String = null) : Array[String] = {
      schema.fields.flatMap(f => {
        val colName = if (prefix == null) f.name else (prefix + "." + f.name)

        f match {
          case StructField(_, struct:StructType, _, _) => flattenSchema(struct, colName)
          case StructField(_, ArrayType(x :StructType, _), _, _) => flattenSchema(x, colName)
          case StructField(_, ArrayType(_, _), _, _) => Array(colName)
          case _ => Array(colName)
        }
      })
    }
    val cols = flattenSchema(df.schema)
    val snakifiedCols = cols.map(c => col(c).as(c.replaceAll("\\.","_")))
    
    df.select(snakifiedCols: _*)
  }
 }
	// https://stackoverflow.com/a/61863579/3251389

	scala> :paste
	// Entering paste mode (ctrl-D to finish)

	import org.apache.spark.sql.{DataFrame, SparkSession}
	import org.apache.spark.sql.functions._
	import org.apache.spark.sql.types._
	import scala.annotation.tailrec
	import scala.util.Try

	implicit class DFHelpers(df: DataFrame) {
	def columns = {
	val dfColumns = df.columns.map(_.toLowerCase)
	df.schema.fields.flatMap { data =>
	data match {
	case column if column.dataType.isInstanceOf[StructType] => {
	column.dataType.asInstanceOf[StructType].fields.map { field =>
	val columnName = column.name
	val fieldName = field.name
	col(s"${columnName}.${fieldName}").as(s"${columnName}_${fieldName}")
	}.toList
	}
	case column => List(col(s"${column.name}"))
	}
	}
	}

	def flatten: DataFrame = {
	val empty = df.schema.filter(_.dataType.isInstanceOf[StructType]).isEmpty
	empty match {
	case false =>
	df.select(columns: _*).flatten
	case _ => df
	}
	}
	def explodeColumns = {
	@tailrec
	def columns(cdf: DataFrame):DataFrame = cdf.schema.fields.filter(_.dataType.typeName == "array") match {
	case c if !c.isEmpty => columns(c.foldLeft(cdf)((dfa,field) => {
	dfa.withColumn(field.name,explode_outer(col(s"${field.name}"))).flatten
	}))
	case _ => cdf
	}
	columns(df.flatten)
	}
	}

	// Exiting paste mode, now interpreting.

	import org.apache.spark.sql.{DataFrame, SparkSession}
	import org.apache.spark.sql.functions._
	import org.apache.spark.sql.types._
	import scala.annotation.tailrec
	import scala.util.Try
	defined class DFHelpers
	package com.example.utils.syntax

	import org.apache.spark.sql.{Column, DataFrame}
	import org.apache.spark.sql.functions.{col, explode_outer}
	import org.apache.spark.sql.types.{ArrayType, StructField, StructType}

	import scala.annotation.tailrec

	implicit class DFHelpers(df: DataFrame) {
	def snakifyColumns: Array[Column] = {
	df.schema.fields.flatMap { structField: StructField =>
	structField.dataType match {
	case dataType: StructType => dataType.fields.map { field =>
	val columnName = structField.name
	val fieldName = field.name
	col(s"${columnName}.${fieldName}").as(s"${columnName}_${fieldName}")
	}.toList
	case _ => col(s"${structField.name}") :: Nil
	}
	}
	}

	@tailrec
	final def flattenStruct: DataFrame = {
	if (df.schema.fields.exists(_.dataType.isInstanceOf[StructType])) {
	df.select(df.snakifyColumns: _*).flattenStruct
	} else df
	}

	def explodeColumns: DataFrame = {
	@tailrec
	def explodeRecursively(cdf: DataFrame): DataFrame = {
	cdf.schema.fields.collect {
	case field@StructField(_, ArrayType(_, _), _, _) => field
	}.toList match {
	case Nil => cdf
	case l: List[StructField] =>
	val explodedDf: DataFrame = l.foldLeft(cdf)((dfa, field) =>
	dfa.withColumn(field.name, explode_outer(col(s"${field.name}")))
	)
	val flattenedDf: DataFrame = l.collectFirst {
	case _@StructField(_, ArrayType(_: StructType, _), _, _) => explodedDf.flattenStruct
	}.getOrElse(explodedDf)
	explodeRecursively(flattenedDf)
	}
	}

	explodeRecursively(df.flattenStruct)
	}
	}
	package ru.cft.ml.spark.utils

	package object syntax {
	object all extends DatasetSyntax
	object dataset extends DatasetSyntax
	}
	implicit class DataframeOnlySchemaFlattening(df: DataFrame) {

	def explodeSchema = {
	def flattenSchema(schema: StructType, prefix: String = null) : Array[String] = {
	schema.fields.flatMap(f => {
	val colName = if (prefix == null) f.name else (prefix + "." + f.name)

	f match {
	case StructField(_, struct:StructType, _, _) => flattenSchema(struct, colName)
	case StructField(_, ArrayType(x :StructType, _), _, _) => flattenSchema(x, colName)
	case StructField(_, ArrayType(_, _), _, _) => Array(colName)
	case _ => Array(colName)
	}
	})
	}
	val cols = flattenSchema(df.schema)
	val snakifiedCols = cols.map(c => col(c).as(c.replaceAll("\\.","_")))

	df.select(snakifiedCols: _*)
	}
	}