PySparkで日付毎にデータを蓄積する際のdf.write.modeについて

PySpark python

概要 PySparkでpartitionByで日付毎に分けてデータを保存している場合、どのように追記していけば良いのか。先にまとめ appendの方がメリットは多いが、チェック忘れると重複登録されるデメリットが怖い。とはいえ、overwriteも他のデータ消えるデメリット…

2019-07-19

PySparkで特定のカラムが全体の最大値であるレコードを取得する

PySpark Python

概要実現はできてはいたものの、もっと良いやり方ないかな？と聞いたら教えてもらったのでメモ。うまく説明できないのでデータを記載します。処理前 +----+------+ |name| date| +----+------+ | a|201906| | a|201907| | b|201906| | b|201907| | c|2019…

2019-07-18

Databricksでは日本語は使用しない方が良い

Databricks Python PySpark

概要 Databricksでファイル名、フォルダ名、引数では日本語を使用できない場合があるので、使用しない方が良い。詳細今時当たり前だが、Databricksでは普通に日本語を使用可能。ファイル名やフォルダ名でもnotebbook単体で普通に使う分には問題ない。だ…

2019-07-18

PySparkでjsonカラムを縦持ちに変換する

PySpark Python

正確には文字列でjsonが入っている時にパースして縦持ちにする方法。また使いそうだが、すぐ忘れそうなのでメモデータ元データ +---+--------------------------------------------------------------+ |id |json | +---+-------------------------------…