PySparkでDataFrame.cacheはMEMORY_AND_DISKレベルキャッシュされる

概要タイトルが全て MEMORY_ONLYだと勘違いしていたためメモ persistも引数なしで呼び出すとMEMORY_AND_DISKなので同じ https://spark.apache.org/docs/3.2.0/api/python/reference/api/pyspark.sql.DataFrame.cache.html https://spark.apache.org/docs/3.…

#PySpark #Python #Python3

2021-10-25

Xiaomi Pad 5（MIUI12）を複数アカウント（ユーザー）で使用する

はじめに Xiaomi Pad5を購入したものの、デフォルトでは複数ユーザーで使用ができない？端末というより、OSであるMIUIの仕様？とりあえず複数ユーザーで使用できるようになったので手順をメモするただし、色々制限はかかっているの注意。詳細は下記参照 …

#Xiaomi Pad 5 #複数アカウント

2021-08-21

GitHub ActionsでビルドしたドキュメントをGitHub Pagesで表示する

まとめ GitHub Pagesは「GitHub Enterprise Cloud 」プランの場合privateで使用する事ができる企業でお金払っていてオンプレのGitHubでなければこのプランのはず追記: 有料プランでもTeamプランというのがありました。こちらではアクセス制御はできません …

2021-04-16

PySparkではDataFrameのjoinでorderは維持されない

概要 PySparkのDataFrameではjoinした際にorderは維持されない正確にはshuffleが行われる orderは出力直前に行うのが鉄則再現コード from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df1 = spark.createDataFrame( [ ['…

#Python #PySpark

2021-04-16

PySparkのDataFrameでは同名のカラムが許容される

概要 PySparkのDataFrameでは同名のカラムが許容される select などカラム名を指定する処理時に例外が発生するカラム名を再定義、別名を付ける事で回避が可能再現コード作成時にカラム名が重複 from pyspark.sql import SparkSession spark = SparkSessio…

#Python #PySpark

2021-04-04

fstringの中でdictionary、setの内包表記を使用する

結論 l = ['a', 'b', 'c'] s1 = f'{ {s:s for s in l} }' # 中括弧の後にスペースが必要 assert s1 == "{'a': 'a', 'b': 'b', 'c': 'c'}" s2 = f'{ {s for s in l} }' # 中括弧の後にスペースが必要 assert s2 == "{'b', 'c', 'a'}" ※setの方は順番は保証さ…

#Python

2021-03-24

Pythonのユニットテストでimportされている変数を上書きする

結論直接モジュールの変数を上書きすれば良いただし、importされた時点でそのモジュールの変数として扱われる事に注意 ※文字で見ても良くわからないと思うので下記のコードを参照ケース1（テスト対象に直接変数がimportされている場合）テスト対象のコー…

#Python #pytest

2021-03-14

GitHub ActionsでLOCALEがja_JP.UTF-8のPostgreSQLを使用する方法

GitHub Actions PostgreSQL

結論サービスコンテナでLOCALEに ja_JP.UTF-8 を設定することはできない自力でLOCALEを追加するイメージを作って、docker run で起動する Dockerfile FROM postgres:11.5 RUN localedef -i ja_JP -c -f UTF-8 -A /usr/share/locale/locale.alias ja_JP.UTF…

#GitHub Actions #PostgreSQL