2018-11-08

PowerShellでJava実行する際にシステムプロパティを設定する際の注意点

概要

PowerShellで java -Dsystem.language=ja Sample みたいな形でシステムプロパティを指定して実行すると正しく実行されない。
- コマンドプロンプトなら勿論実行可能。

f:id:yamap_55:20181108195116p:plain f:id:yamap_55:20181108195251p:plain

正しく実行する際には java "-Dsystem.language=ja" Sample のようにダブルクォーテーションで囲う必要がある。
PowerShellは「-」の後に「.」が来ると区切りと判定するらしい

経緯とか

日本語版Stack Overflowで質問発見。
↓のJavaコマンドを投げても正しく動かないらしい。
- java -cp libtensorflow-1.11.0.jar;. -Djava.library.path=.\jni HelloTensorFlow
エラーメッセージを見るとクラスが正しく認識でされてないっぽいので、コマンドのどこかにスペース入ってるんじゃね？っと思ったら違うらしい。
- エラーメッセージ : エラー: メイン・クラス.library.path=.\jniが見つからなかったかロードできませんでした
やり取りしていたら、PowerShell上ではオプションが正しく設定されないという事が発覚。
調べてみたらPowerShellの仕様っぽい。

echoの例

正常系1

PS C:\work\20181108> echo a b
a
b

正常系2

PS C:\work\20181108> echo a.b
a.b

想定外1

PS C:\work\20181108> echo -a.b
-a
.b

想定外2

本題ではないですが、「,」を入れてみたら分割されました。

PS C:\work\20181108\j> echo a,b
a
b

参考URL

Why does PowerShell split arguments containing hyphens and periods?
- 本家Stack Overflow
period in arguments
- MicrosoftのQAサイト？
PowerShellコマンド環境で引っかかったこと
- 日本語情報（↑↑のStack Overflowにたどり着いています）

2018-11-06

S3で静的ファイルのホスティングしてIP制御

経緯

静的なHTMLをお客さんに見せる事になり、ローカルPCで見せてもいいけど、どうせならどこかにホスティングして置いといた方がいいよね。って事でS3に置いたらIP制御でハマったのでメモ。

※ハマったというか、エンドポイントではなくて直接ファイルにアクセスしてたのでうまくいかなかっただけ。。。

手順

S3にバケット作る
バケットのプロパティ → Static website hosting → 「このバケットを使用してウェブサイトをホストする」 → 保存
- エンドポイントのURLをメモ
- http://bucket-name.s3-website-ap-northeast-1.amazonaws.com
2で設定したインデックスドキュメント（デフォルトはindex.html）を置く
エンドポイントにブラウザでアクセスして、index.htmlが表示されることを確認。
バケット → アクセス権限 → バケットポリシー
- 以下のように記載（うまくいかない場合は、ポリシージェネレーターで作成）

バケットポリシーエディタ

{
    "Version": "xxxxxxxxxxxxx",
    "Id": "xxxxxxxxxxxx",
    "Statement": [
        {
            "Sid": "xxxxxxxxxxxxx",
            "Effect": "Allow",
            "Principal": "*",
            "Action": "s3:*",
            "Resource": "arn:aws:s3:::bucket-name/*",
            "Condition": {
                "IpAddress": {
                    "aws:SourceIp": [
                        "198.51.100.0",
                        "192.0.2.0"
                    ]
                }
            }
        }
    ]
}

各「xxxx」的な所と、Resourceの「バケット名」、aws:SourceIpの「IP」は適当な値に変更する。

確認

自分のIPのみを設定して表示されることを確認。
他のIP（スマホからなど）で表示されないことを確認。
↑と同じく、直接ファイルのリンクにアクセスして、表示される、されない事を確認。

2018-07-22

VSCodeで静的コード解析ツールPylintを使用する

python Pylint

はじめに

PythonではPEP8というコード規約が一般的に使用されているようです。（PEP 8 -- Style Guide for Python Code）

この規約に準拠したツールがいくつかあり、これ！っというものは特にないという印象です。
で、代表的なものとして、同名のpep8があるのでややこしい。
ちなみにツールの方のpep8は名前を変更してpycodestyleとなっていますので注意。（pep8は1.7.1が最終更新のようです。）
詳細はQiitaにまとまっている記事がありましたのでこちらを参照してください。（pep8 が pycodestyle に変わった話）

他にもflake8や今回紹介するPylintが競合としてあるようです。
で、今回はPylintを使用することになっていたので、こちらをVSCodeで使用する方法について調べたメモです。

手順

VSCodeでPythonを入れる際にはまず使用するであろう拡張機能 ms-python.pythonを入れる
設定を確認
- "python.linting.enabled" が true になっていること
- "python.linting.pylintEnabled" が true になっていること
- "python.linting.lintOnSave" はお好みで
- "python.linting.pylintPath" このPATHでコマンドが実行されるので、PATHが通ってない場合には修正が必要です。
Pylintの設定ファイルを作成
- デフォルトだと警告が出てくれない事、厳しすぎる規約を変更したい事から設定ファイルを作成します。
- 下記のコマンドでデフォルトの設定ファイルが作成されます。
- pylint --generate-rcfile > .pylintrc
  - 【注意】私の環境だとUTF-16で出力されたのでUTF-8に変換の必要がありました。
- 設定ファイルの場所は公式ドキュメントを参照。
  - workingdirectoryにpylntrcか、.pylintrcを置いておけばよいかと。
  - 日本語onlyの人は訳はここにありました
指摘を確認
- 問題ビューに指摘が表示されます。（macだとshift + command + m）
- 明らかにおかしいコードで表示されない場合には、設定ファイルを一旦renameして指摘されるか確認しましょう。
設定ファイルを調整
システム全体で警告を無効化する場合は設定ファイルを修正。
- あるコードのみ例外的に無視したい場合にはコメントとして↓のように無視したいコードを入力すれば無視してくれます。
  - # pylint: disable=C0330
  - あまり調べていないのですがファイル全体で無効化されるようなので注意。
- 好みですが、私は以下を修正しました。
- max-line-lengthを120
  - デフォルトの100だと厳しいと感じました。
- good-namesにf,vを追加
  - スコープに関係なく、1から2文字の変数を許してくれません。
  - 実際のプロジェクトでは分析でよく使用される変数名を追加しています。

参考URL

Pylintのコード一覧

2018-07-19

オブジェクトの配列をPandasのDataFrameに変換する

python3 pandas

背景とか

オブジェクト（エンティティとか、JavaBeansとか、DTOとか呼ばれる属性（フィールド）しか持たない奴）の配列をPandasのDataFrameに変更したメモです。
簡単にできそうだったけどできなかったので結局dictionaryに変換して突っ込みました。
PythonにもPandasにも詳しくないのですが、こういうケースはよくあると思ったのですが、あまりない？？

コード

import pandas as pd

class Hoge:
    c1 = ''
    c2 = ''
    c3 = ''

    def __init__(self, *args):
        self.c1 = args[0]
        self.c2 = args[1]
        self.c3 = args[2]

hoge1 = Hoge('c1_1','c2_1','c3_1')
hoge2 = Hoge('c1_2','c2_2','c3_2')
hoge3 = Hoge('c1_3','c2_3','c3_3')

ar = [hoge1, hoge2, hoge3]

# 最初こんなのでできるかなと思ってました。
df1 = pd.DataFrame(ar)
print(df1) # 1列3行でHogeオブジェクトが設定される（当たり前）

# 最終的にこうなりました。
df2 = pd.DataFrame(list(map(lambda hoge: vars(hoge), ar)))
print(df2)

2018-07-11

SQLAlchemyでAUTO_INCREMENTされた値を取得したい

python3

結論

addした後にflushすると、addしたオブジェクトに設定されている。
- 【未確認】exuecuteで実行する場合には返り値から取得できる？（参考）

環境

MySQL 5.7（Cloud SQL）
Python 3.6.6
PyMySQL 0.8.1
SQLAlchemy 1.2.0

コード

from sqlalchemy import Column
from sqlalchemy.dialects.mysql import INTEGER,TEXT
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker

Base = declarative_base()

class tablea(Base):
    """テーブルの定義"""
    __tablename__ = 'tablea'

    id = Column(INTEGER, primary_key=True)
    id2 = Column(INTEGER, primary_key=True, autoincrement=True)
    name = Column(TEXT)

if __name__ == "__main__":
    # MySQLに接続。
    url = 'mysql+pymysql://user:password@hostname/dbname?charset=utf8'
    engine = create_engine(url, echo=True)

    engine.execute('DROP TABLE IF EXISTS {}'.format("tablea"))

    # テーブル作成
    Base.metadata.create_all(engine)

    # セッションの作成
    Session = sessionmaker(bind=engine)
    session = Session()

    tablea1 = tablea(id=100, name='太郎')
    tablea2 = tablea(id=200, name='次郎')
    session.add(tablea1)
    session.add(tablea2)

    # addしただけではDBに反映されない
    # autoincrementされるid2についても値はNone
    print('add後のid2の値')
    print(tablea1.id2) # None
    print(tablea2.id2) # None
    session.flush()
    print('flush後のid2の値')
    print(tablea1.id2) # 1
    print(tablea2.id2) # 2

    # 全件出力
    print("全件出力")
    for row in session.query(tablea).all():
        print(row.id, row.id2, row.name)

#    session.commit() # commitしなければrollbackされる

2018-07-11

SQLAlchemyでAttributeError

python3

経緯とか

調査依頼を受けて調べてみた結果を記載。
どこかの誰かは助かるかも的な奴。

調査依頼の内容

SQLAlchemyでselectしようとしたら変な例外で落ちた。
SQLを実行する前に落ちている。
よくわからないオブジェクトでよくわからない例外が発生している。

概要

変なオブジェクトを挿入しようとしたので例外が発生。
なんで変なオブジェクト挿入しようとしたのかというと、autoincrementされた値を取得したいため。

詳細

insertしようとして、intのカラムにオブジェクトを設定する。
オブジェクトを設定した際には型チェックしてくれないのでそのまま設定される。
addしただけではDBに挿入されず、次のフラッシュでデータベースに反映されるため、例外は発生しない。
- 公式ドキュメント
selectを行う際にフラッシュの処理が走る。
そこでaddを実際にinsertを行うための前処理？が走る。
設定された値の文字コードを変換する処理が走る。
「設定された値 = オブジェクト」なので、変換できない。
例外発生。

環境

Windows10
MySQL 5.7（Cloud SQL）
Python 3.6.6
PyMySQL 0.8.1
SQLAlchemy 1.2.0

例外

Traceback (most recent call last):
  File "test.py", line 55, in <module>
    for row in session.query(tablea).all():
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\orm\query.py", line 2726, in all
    return list(self)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\orm\query.py", line 2877, in __iter__
    self.session._autoflush()
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\orm\session.py", line 1428, in _autoflush
    self.flush()
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\orm\session.py", line 2237, in flush
    self._flush(objects)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\orm\session.py", line 2363, in _flush
    transaction.rollback(_capture_exception=True)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\util\langhelpers.py", line 66, in __exit__
    compat.reraise(exc_type, exc_value, exc_tb)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\util\compat.py", line 187, in reraise
    raise value
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\orm\session.py", line 2327, in _flush
    flush_context.execute()
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\orm\unitofwork.py", line 391, in execute
    rec.execute(self)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\orm\unitofwork.py", line 556, in execute
    uow
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\orm\persistence.py", line 181, in save_obj
    mapper, table, insert)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\orm\persistence.py", line 866, in _emit_insert_statements
    execute(statement, params)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\engine\base.py", line 948, in execute
    return meth(self, multiparams, params)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\sql\elements.py", line 269, in _execute_on_connection
    return connection._execute_clauseelement(self, multiparams, params)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\engine\base.py", line 1060, in _execute_clauseelement
    compiled_sql, distilled_params
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\engine\base.py", line 1200, in _execute_context
    context)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\engine\base.py", line 1416, in _handle_dbapi_exception
    util.reraise(*exc_info)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\util\compat.py", line 187, in reraise
    raise value
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\engine\base.py", line 1193, in _execute_context
    context)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\sqlalchemy\engine\default.py", line 507, in do_execute
    cursor.execute(statement, parameters)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\pymysql\cursors.py", line 168, in execute
    query = self.mogrify(query, args)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\pymysql\cursors.py", line 147, in mogrify
    query = query % self._escape_args(args, conn)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\pymysql\cursors.py", line 127, in _escape_args
    return dict((key, conn.literal(val)) for (key, val) in args.items())
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\pymysql\cursors.py", line 127, in <genexpr>
    return dict((key, conn.literal(val)) for (key, val) in args.items())
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\pymysql\connections.py", line 846, in literal
    return self.escape(obj, self.encoders)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\pymysql\connections.py", line 839, in escape
    return converters.escape_item(obj, self.charset, mapping=mapping)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\pymysql\converters.py", line 27, in escape_item
    val = encoder(val, mapping)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\pymysql\converters.py", line 118, in escape_unicode
    return u"'%s'" % _escape_unicode(value)
  File "C:\Users\username\AppData\Local\Programs\Python\Python36\lib\site-packages\pymysql\converters.py", line 73, in _escape_unicode
    return value.translate(_escape_table)
AttributeError: 'ResultProxy' object has no attribute 'translate'

再現コード

from sqlalchemy import Column
from sqlalchemy.dialects.mysql import INTEGER,TEXT
from sqlalchemy.ext.declarative import declarative_base
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker

Base = declarative_base()

class tablea(Base):
    """テーブルの定義"""
    __tablename__ = 'tablea'

    id = Column(INTEGER, primary_key=True, autoincrement=True)
    name = Column(TEXT)

class tableb(Base):
    """テーブルの定義"""
    __tablename__ = 'tableb'

    id = Column(INTEGER, primary_key=True, autoincrement=True)
    tablea_id = Column(INTEGER)

if __name__ == "__main__":
    # MySQLに接続。
    url = 'mysql+pymysql://user:password@hostname/dbname?charset=utf8'
    engine = create_engine(url, echo=True)

    engine.execute('DROP TABLE IF EXISTS {}'.format("tablea"))
    engine.execute('DROP TABLE IF EXISTS {}'.format("tableb"))

    # テーブル作成
    Base.metadata.create_all(engine)

    # セッションの作成
    Session = sessionmaker(bind=engine)
    session = Session()

    # autoincrementのidカラムには何も指定せずに挿入
    tablea1 = tablea(name='太郎')
    session.add(tablea1)

    # autoincrementされたidを取得するために、MySQLのlast_insert_idを使用する
    lastindex = session.execute("select last_insert_id() as id")

    # 取得したIDを別テーブルに挿入
    # ※取得したオブジェクトをそのまま設定しているが、設定時、add時共にエラーとならない
    tablea2 = tableb(tablea_id=lastindex)
#    tablea2 = tableb(tablea_id=10)
    session.add(tablea2)

    # 全件出力
    print("全件出力")
    # 全然関係ないselect投げる際に例外発生
    for row in session.query(tablea).all():
        print(row.id, row.name)

#    session.commit() # commitしなければrollbackされる

学んだこととか

型が恋しい。
- intのカラムにオブジェクト突っ込んだ時に例外として欲しい。
session.query()はflushするが、session.execute()はflushしない？
- 上記のコードを正しく動かすために、「session.execute("select last_insert_id() as id").fetchone().id」とすると動作はするが、意図した値にならない。
  - 0が返ってくる。（本当は1が返ってきて欲しい）
- もし、このコードのまま使うのであればflush()してからlast_inset_id()を実行する必要がある。
- ただ、flush()すると、挿入時に使用したオブジェクトに値を設定してくれるので、わざわざlast_insertで取得する必要はない。
  - 参考 : SQLAlchemyでAUTO_INCREMENTされた値を取得したい
スタックトレースをよく見る。
- SQLAlchemyを動作させるところから1時間位？かかってしまったがよくスタックトレースみたら、「ResultProxy」をエンコードしようとして落ちてる事、flush時に発生している事がわかるので、どこかで「ResultProxy」を値に突っ込んでいる事が原因とわかったはず。
- あるあるだが、よく見ること大事。

2018-07-11

WSLでgoogle-images-downloadを使用する

python wsl

概要

WindowsのWSL上でgoogle-images-downloadを使用して、画像を集める

用語

WSL
- Windows Subsystem for Linux
- Windows上でLinux動かすやつ
google-images-download
- Google画像検索を使用して画像を取得してくれる。
- Seleniumを使用してスクレイピングで取得する。
- Google画像検索は普通に取ろうとすると100枚しか取れないらしいので、画像集める際にはかなり有用。
- https://github.com/hardikvasa/google-images-download

前提

WSL上にPythonがインストールされていること
- Python2でも3でも良いが3が推奨との事（私は3.5.2を利用）
Windows上にChrome最新版がインストールされていること
- 最新版でない場合にはChromeDriver取得の際に、適切なバージョンを選択してください。

手順

WSL上にgoogle-images-downloadをclone
- git clone https://github.com/hardikvasa/google-images-download.git
setup
- cd google-images-download && sudo python setup.py install
- 私の場合は python3 setup.py install で実行
試す
- googleimagesdownload --keywords "りんご"
確認
- downloads/りんご 配下に100枚弱のファイルがあればOK
webdriverを取得
- 100枚を超える場合にはSeleniumで取得する必要がある
- ↓から Windows用 のdriverを取得
  - http://chromedriver.chromium.org/downloads
- Windows上のChromeをWSLから起動するため、Windows用のChromeDriverを使用する。
適当な所に解凍
Chromeを呼び出すための設定
- 「chrome」固定で呼び出すようなので、PATH設定してエイリアスにchromeを設定する。
  - Seleniumのオプションで指定できたと思うが、割愛。
- export PATH=$PATH:"/mnt/c/Program Files (x86)/Google/Chrome/Application"
- alias chrome='chrome.exe'
- WSL上で chrome でWindows上でChromeが起動したらOK
実行
- ChromeDriverのパスは適切なものに変更してください↓

googleimagesdownload --keywords "apple" --limit 1000 --chromedriver /mnt/c/work/github/google-images-download/chromedriver_win32/chromedriver.exe

確認
- downloads/apple 配下に1000枚弱のファイルがあればOK

感想

最初、自力でスクレイピングするつもりだったので、簡単に取得できて凄い。
が、多分Google側も構成変更したりと対応するだろうから、定期的に実行するのであればリポジトリは常に最新にしておく必要はあると思われる。
Chromedriverの手動ダウンロードが面倒。
- Chromeがバージョンアップするたび？にChromeDriverの更新が必要。
- Javaでもあったけど、seleneで使用してたwebdriver_managerを組み込んだら喜ばれるのだろうか？
Mac環境で setup.py install したらうまく行かなかった。。。わからないままやっている部分が多いので、Pythonの環境設定は嫌な感じ。

山ｐの楽しいお勉強生活

勉強の成果を垂れ流していきます

PowerShellでJava実行する際にシステムプロパティを設定する際の注意点

概要

経緯とか

echoの例

参考URL

S3で静的ファイルのホスティングしてIP制御

経緯

手順

バケットポリシーエディタ

確認

VSCodeで静的コード解析ツールPylintを使用する

はじめに

手順

参考URL

オブジェクトの配列をPandasのDataFrameに変換する

背景とか

コード

SQLAlchemyでAUTO_INCREMENTされた値を取得したい

結論

環境

コード

SQLAlchemyでAttributeError

経緯とか

調査依頼の内容

概要

詳細

環境

例外

再現コード

学んだこととか

WSLでgoogle-images-downloadを使用する

概要

用語

前提

手順

感想