JDK 1.8.0_221を管理者権限がないWindowsにインストールする

Java

今時Java8？管理者権限がないとかどういうこと？とか色々言いたい事はありますが、やらなきゃいけない事もあるのです。同内容の記事がWeb上で見受けられますが、落とし穴いっぱいなので改めて記事にしています。手順 jdkを取得 https://www.oracle.com/tec…

2019-08-14

databricksでcreate tableを行った際にParquet does not support timestamp. See HIVE-6384が発生する

Databricks PySpark Python

エラー詳細 stacktraceは長いので割愛 com.databricks.backend.common.rpc.DatabricksExceptions$SQLExecutionException: org.apache.spark.sql.AnalysisException: org.apache.hadoop.hive.ql.metadata.HiveException: java.lang.UnsupportedOperationExcep…

2019-07-25

PySparkで日付毎にデータを蓄積する際のdf.write.modeについて

PySpark python

概要 PySparkでpartitionByで日付毎に分けてデータを保存している場合、どのように追記していけば良いのか。先にまとめ appendの方がメリットは多いが、チェック忘れると重複登録されるデメリットが怖い。とはいえ、overwriteも他のデータ消えるデメリット…

2019-07-19

PySparkで特定のカラムが全体の最大値であるレコードを取得する

PySpark Python

概要実現はできてはいたものの、もっと良いやり方ないかな？と聞いたら教えてもらったのでメモ。うまく説明できないのでデータを記載します。処理前 +----+------+ |name| date| +----+------+ | a|201906| | a|201907| | b|201906| | b|201907| | c|2019…

2019-07-18

Databricksでは日本語は使用しない方が良い

Databricks Python PySpark

概要 Databricksでファイル名、フォルダ名、引数では日本語を使用できない場合があるので、使用しない方が良い。詳細今時当たり前だが、Databricksでは普通に日本語を使用可能。ファイル名やフォルダ名でもnotebbook単体で普通に使う分には問題ない。だ…

2019-07-18

PySparkでjsonカラムを縦持ちに変換する

PySpark Python

正確には文字列でjsonが入っている時にパースして縦持ちにする方法。また使いそうだが、すぐ忘れそうなのでメモデータ元データ +---+--------------------------------------------------------------+ |id |json | +---+-------------------------------…

2019-07-17

PySparkでread時に型が変わる

PySpark Python

概要 PySparkで保存前はstringで、読み込むとintegerにカラムの型が変わっている現象に遭遇した。原因としてはpartitionByで指定したカラムの型は自動的に推測されるため。パーティションのカラムのデータタイプは自動的に推測されることに注意してくださ…

2019-07-08

GreasemonkeyやTampermonkeyで外部CSSを読み込む

表題のまま。久しぶりにuser script書いたら外部のCSSの読み込み方法がわからなかったのでメモ。（昔、user scriptをよく書いてた時も外部のCSS読み込んでいたと思うんだけど、こんな方法使ってた記憶がない。。。どうやってたんだろう？）まとめヘッダ…

2019-02-08

Pythonでjsonを読み込み、出力する際にdateやdatetime型を使用する

python

出力の時の話はよく記載がありましたが、読み込みの際に変換する方法はあまりなかったのでメモ。概要 jsonでは日付型というのは定義されていません。（そもそもどう表現する？）そのため、pythonでjsonを読み込みの際に日付が含まれていても文字列になりま…

2019-02-01

S3cmdのProxy設定について

s3cmdを使用して動いていたバッチ処理で、proxy設定を追加しようとしたら色々大変だったお話。 S3cmdとは S3cmd : Command Line S3 Client and Backup for Linux and Mac 公式ページより。 Windows用にはS3Expressというのがあるらしい。 S3Express : Comman…

2019-01-25

Pythonからs3fsを使用してS3を操作した際にハマった件について

はじめに PythonsからS3をいじる際に、これまではaws cliを直接叩いていたのですが、s3fsを使用するとexistsやlsみたいなわかりやすい名称で使えるというのをどこかで知ったので使ってみた。同名でS3をマウントするもの（ https://github.com/s3fs-fuse/s3f…

2018-11-08

PowerShellでJava実行する際にシステムプロパティを設定する際の注意点

概要 PowerShellで java -Dsystem.language=ja Sample みたいな形でシステムプロパティを指定して実行すると正しく実行されない。コマンドプロンプトなら勿論実行可能。正しく実行する際には java "-Dsystem.language=ja" Sample のようにダブルクォーテー…

2018-11-06

S3で静的ファイルのホスティングしてIP制御

経緯静的なHTMLをお客さんに見せる事になり、ローカルPCで見せてもいいけど、どうせならどこかにホスティングして置いといた方がいいよね。って事でS3に置いたらIP制御でハマったのでメモ。 ※ハマったというか、エンドポイントではなくて直接ファイルにアク…

2018-07-22

VSCodeで静的コード解析ツールPylintを使用する

python Pylint

はじめに PythonではPEP8というコード規約が一般的に使用されているようです。（PEP 8 -- Style Guide for Python Code）この規約に準拠したツールがいくつかあり、これ！っというものは特にないという印象です。で、代表的なものとして、同名のpep8がある…

2018-07-19

オブジェクトの配列をPandasのDataFrameに変換する

python3 pandas

背景とかオブジェクト（エンティティとか、JavaBeansとか、DTOとか呼ばれる属性（フィールド）しか持たない奴）の配列をPandasのDataFrameに変更したメモです。簡単にできそうだったけどできなかったので結局dictionaryに変換して突っ込みました。 Python…

2018-07-11

SQLAlchemyでAUTO_INCREMENTされた値を取得したい

python3

結論 addした後にflushすると、addしたオブジェクトに設定されている。【未確認】exuecuteで実行する場合には返り値から取得できる？（参考）環境 MySQL 5.7（Cloud SQL） Python 3.6.6 PyMySQL 0.8.1 SQLAlchemy 1.2.0 コード from sqlalchemy import Col…

2018-07-11

SQLAlchemyでAttributeError

python3

経緯とか調査依頼を受けて調べてみた結果を記載。どこかの誰かは助かるかも的な奴。調査依頼の内容 SQLAlchemyでselectしようとしたら変な例外で落ちた。 SQLを実行する前に落ちている。よくわからないオブジェクトでよくわからない例外が発生している。…

2018-07-11

WSLでgoogle-images-downloadを使用する

python wsl

概要 WindowsのWSL上でgoogle-images-downloadを使用して、画像を集める用語 WSL Windows Subsystem for Linux Windows上でLinux動かすやつ google-images-download Google画像検索を使用して画像を取得してくれる。 Seleniumを使用してスクレイピングで取…