2021-04-16から1日間の記事一覧
概要 PySparkのDataFrameではjoinした際にorderは維持されない 正確にはshuffleが行われる orderは出力直前に行うのが鉄則 再現コード from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df1 = spark.createDataFrame( [ ['…
概要 PySparkのDataFrameでは同名のカラムが許容される select などカラム名を指定する処理時に例外が発生する カラム名を再定義、別名を付ける事で回避が可能 再現コード 作成時にカラム名が重複 from pyspark.sql import SparkSession spark = SparkSessio…