技術ノート

darknet.py OpenCV

darknet.pyにコードが古くなってるっぽいexamples/detector-scipy-opencv.pyのOpenCV部を取り込み、Python 3用に import cv2 import sys, os sys.path.append(os.path.join(os.getcwd(),'python/')) import darknet as dn net = dn.load_net("cfg/yolov3.cfg", "backup/hoge.weights", 0) meta = dn.load_meta('cfg/yolov3.cfg') np_image = cv2.imread('data/dog.jpg') r = dn.detect_cv(net, meta, np_image) print(r) from ctypes import * import math import random import os DARKNET_SO_PATH = os.environ.get('DARKNET_SO_PATH', os.path.realpath('./libdarknet.so')) # assert os.path.exists(DARKNET_SO_PATH), DARKNET_SO_PATH def sample(probs): s = sum(probs) probs = [a/s for a in probs] r = random.uniform(0, 1) for i in range(len(probs)): r = r - probs[i] if r <= 0: return i return len(probs)-1 def c_array(ctype, values): arr = (ctype*len(values))() arr[:] = values return arr class BOX(Structure): _fields_ = [("x", c_float), ("y", c_float), ("w", c_float), ("h", c_float)] class DETECTION(Structure): _fields_ = [("bbox", BOX), ("classes", c_int), ("prob", POINTER(c_float)), ("mask", POINTER(c_float)), ("objectness", c_float), ("sort_class", c_int)] class IMAGE(Structure): _fields_ = [("w", c_int), ("h", c_int), ("c", c_int), ("data", POINTER(c_float))] class METADATA(Structure): _fields_ = [("classes", c_int), ("names", POINTER(c_char_p))] #lib = CDLL("/home/pjreddie/documents/darknet/libdarknet.so", RTLD_GLOBAL) # lib = CDLL("libdarknet.so", RTLD_GLOBAL) lib = CDLL(DARKNET_SO_PATH, RTLD_GLOBAL) lib.network_width.argtypes = [c_void_p] lib.network_width.restype = c_int lib.network_height.argtypes = [c_void_p] lib.network_height.restype = c_int predict = lib.network_predict predict.argtypes = [c_void_p, POINTER(c_float)] predict.restype = POINTER(c_float) set_gpu = lib.cuda_set_device set_gpu.argtypes = [c_int] make_image = lib.make_image make_image.argtypes = [c_int, c_int, c_int] make_image.restype = IMAGE get_network_boxes = lib.get_network_boxes get_network_boxes.argtypes = [c_void_p, c_int, c_int, c_float, c_float, POINTER(c_int), c_int, POINTER(c_int)] get_network_boxes.restype = POINTER(DETECTION) make_network_boxes = lib.make_network_boxes make_network_boxes.argtypes = [c_void_p] make_network_boxes.restype = POINTER(DETECTION) free_detections = lib.free_detections free_detections.argtypes = [POINTER(DETECTION), c_int] free_ptrs = lib.free_ptrs free_ptrs.argtypes = [POINTER(c_void_p), c_int] network_predict = lib.network_predict network_predict.argtypes = [c_void_p, POINTER(c_float)] reset_rnn = lib.reset_rnn reset_rnn.argtypes = [c_void_p] _load_net = lib.load_network _load_net.argtypes = [c_char_p, c_char_p, c_int] _load_net.restype = c_void_p do_nms_obj = lib.do_nms_obj do_nms_obj.argtypes = [POINTER(DETECTION), c_int, c_int, c_float] do_nms_sort = lib.do_nms_sort do_nms_sort.argtypes = [POINTER(DETECTION), c_int, c_int, c_float] free_image = lib.free_image free_image.argtypes = [IMAGE] letterbox_image = lib.letterbox_image letterbox_image.argtypes = [IMAGE, c_int, c_int] letterbox_image.restype = IMAGE _load_meta = lib.get_metadata lib.get_metadata.argtypes = [c_char_p] lib.get_metadata.restype = METADATA load_image = lib.load_image_color load_image.argtypes = [c_char_p, c_int, c_int] load_image.restype = IMAGE rgbgr_image = lib.rgbgr_image rgbgr_image.argtypes = [IMAGE] predict_image = lib.network_predict_image predict_image.argtypes = [c_void_p, IMAGE] predict_image.restype = POINTER(c_float) def classify(net, meta, im): out = predict_image(net, im) res = [] for i in range(meta.classes): res.append((meta.names[i], out[i])) res = sorted(res, key=lambda x: -x[1]) return res def load_net(cfg_path, weights_path, clear=0): return _load_net(cfg_path.encode('ascii'), weights_path.encode('ascii'), clear) def load_meta(cfg_path): return _load_meta(cfg_path.encode('ascii')) def _detect(net, meta, im, thresh=.5, hier_thresh=.5, nms=.45): num = c_int(0) pnum = pointer(num) predict_image(net, im) dets = get_network_boxes(net, im.w, im.h, thresh, hier_thresh, None, 0, pnum) num = pnum[0] if (nms): do_nms_obj(dets, num, meta.classes, nms); res = [] for j in range(num): for i in range(meta.classes): if dets[j].prob[i] > 0: b = dets[j].bbox res.append((meta.names[i], dets[j].prob[i], (b.x, b.y, b.w, b.h))) res = sorted(res, key=lambda x: -x[1]) free_detections(dets, num) return res def detect(net, meta, image_path, thresh=.5, hier_thresh=.5, nms=.45): im = load_image(image_path, 0, 0) res = _detect(net, meta, im, thresh, hier_thresh, nms) free_image(im) return res def array_to_image(arr): arr = arr.transpose(2,0,1) c = arr.shape[0] h = arr.shape[1] w = arr.shape[2] arr = (arr/255.0).flatten() data = c_array(c_float, arr) im = IMAGE(w,h,c,data) return im def detect_cv(net, meta, np_image, thresh=.5, hier_thresh=.5, nms=.45): im = array_to_image(np_image) rgbgr_image(im) return _detect(net, meta, im, thresh, hier_thresh, nms)

Yolo v3でObject Detectionする（darknet）

https://github.com/pjreddie/darknet git clone https://github.com/pjreddie/darknet.git データセットの作成 mydata.data classes = CLASS_NUM train = mydata-train.txt test = mydata-test.txt names = mydata.names backup = backup/mydata/ 各ファイルパスはdarknetの実行ディレクトリからの相対パス。 mydata.names category1 category2 category3 ... categoryCLASS_NUM ラベル＝[クラスの数値表現]に対応するクラス名（行番号＝ラベル）を記述する。 mydata-train.txt、mydata-test.txtにはデータセット（訓練データ、テストデータ）に含まれる画像のパスをそれぞれ1画像＝1行で記述する。データセットの画像と同じ階層に、IMAGE.jpgのアノテーション情報としてIMAGE.txtを配置する必要がある（1画像＝1アノテーションファイル）。 IMAGE.txt label center_x center_y width height カラムはスペース区切りで、BoundingBox1つ＝1行で記述する。画像中のオブジェクトの種類はlabel（0始まりの数値）で表現する。画像中のオブジェクトのBoundingBoxはcenter_x、center_y、width、height（オブジェクト中心X座標、オブジェクト中心Y座標、オブジェクト幅、オブジェクト高さ）の4パラメータで表現する。center_x、widthは画像幅で除算、center_y、heightは画像高さで除算し、実数で記述する。設定ファイルの作成 cfgディレクトリ以下のファイルをベースに使う。 batch、subdivision, width, heightなどをメモリサイズなどに応じて変更する。デフォルトでは画像にランダムリサイズがかかるようになっているので、メモリ使用量が変動することに注意。 Yolo v3 cfg/yolov3.cfgをコピーする（mydata-yolov3.cfg）。 CLASS_NUM=クラス数 # L610, 696, 783 classes=CLASS_NUM # L603, 689, 776 filters=(CLASS_NUM + 5) * 3 Yolo v3の例 # L610, 696, 783 classes=1 # L603, 689, 776 filters=18 Tiny Yolo v3 cfg/yolov3-tiny.cfgをコピーする（mydata-yolov3-tiny.cfg）。 ...

CUDA setup (make darknet)

darknetのmakeに失敗するので、CUDA/NVIDIA Driverの再セットアップ。 https://developer.nvidia.com/cuda-downloads runfile (local)をダウンロード。 apt purge nvidia-* apt purge cuda-* reboot あとはrunfileを実行してCUIでNVIDIA DriverとCUDA Toolkitをインストール（CUIモードでsystemctl stop lightdm←16.04の場合だった、18.04ならgdm？）。 export PATH=/usr/local/cuda/bin:$PATH export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH .bashrc（Ubuntuの場合）に上の2行を追記する。 Ubuntu 18.04.3 CUDA Toolkit 10.1 & NVIDIA Driver 418（cuda_10.1.243_418.87.00） darknet（#61c9d02）上記の環境でdarknetのmakeに成功した。 https://pjreddie.com/darknet/ 参考 http://vastee.hatenablog.com/entry/2018/11/20/152234

Python ログ出力抑制デコレータ

出力を抑制するデコレータ。 Python 3.7.4、ctypesを使ったライブラリ呼び出しで動作を確認（darknet.py）。 # 標準出力・標準エラー出力の抑制 def silent(verbose=False): def _silent(func): def wrapper(*args, **kwargs): if not verbose: devnull = open(os.devnull, 'w') stdout = os.dup(1) stderr = os.dup(2) os.dup2(devnull.fileno(), 1) os.dup2(devnull.fileno(), 2) res = func(*args, **kwargs) if not verbose: os.dup2(stdout, 1) os.dup2(stderr, 2) devnull.close() return res return wrapper return _silent 使い方のイメージ（デコレータなせいで長くなってしまう、デコレータじゃなくて単純にコールバック風に関数を呼び出すラップ関数作ってもいいかも…）。 def func(verbose=False): @silent(verbose=verbose) def _func(): cfunc() funcA() _func() funcB() 参考 Cの共有ライブラリがPythonの標準出力に印刷されないようにするにはどうすればいいですか？ - コードログ ctypes - How do I prevent a C shared library to print on stdout in python? - Stack Overflow 標準出力を黙らせるデコレーター - Qiita Pythonのデコレータについて - Qiita Capturing print output from shared library called from python with ctypes module - Stack Overflow

SSBUFrameAnalyzer v3

History GitHub - aoirint/SSBUFrameAnalyzer SSBUFrameAnalyzer · えやみぐさ SSBUFrameAnalyzer v2 · えやみぐさ What’s New 「ストック」を取得できるようにした（精度イマイチ） 3ストックまで想定（4ストック以上は未実装）一応団体戦考慮してストックごとにキャラクター推定精度イマイチな原因かも：背景、ファイター順によってちょっと決め打ち座標がズレてる、画像が小さすぎる→大きく補間してからHOG？勇者（Hero）のデータを追加（v3のdictionary）コマンド出てるときは（顔に被るから）邪魔で難しいと思う… GitHub - aoirint/SSBUFrameAnalyzer at v3 TODO ファイター数の推定 bboxのズレ解消 bboxの自動算出残タイムの推定画面中のファイター位置の推定深層学習（YOLO/R-CNN系かセグメンテーション）になりそう、データがない… 精度向上 normalizeしたり、コントラスト上げたり、周辺ぼかすフィルタ掛けたりしたら精度上がらないかなチャージ・残量系キャラ（ルフレ、クラウド、リトル・マック、インクリング、ジョーカー、勇者他？）のチャージ・残量推定ステージの推定（データ…）

SSBUFrameAnalyzer v2

GitHub - aoirint/SSBUFrameAnalyzer いまのところ、スマブラSPのスクリーンショットから「ダメージ値」・「おなまえ」・「キャラ名」を取得できる（ただし2,3,4人対戦のみ）。「おなまえ」の取得精度は微妙。アルファベットだったら少し精度いいかも？ SSBUFrameAnalyzer · えやみぐさ「キャラ名」の取得ダメージ値と同じくHOG特徴量で最近傍（knnに拡張できる）。データには対戦中のキャラ顔画像を使用。一応（大きく）モデル違うやつ（色変えただけ以外、ex. むらびと、ポケモントレーナー、ルフレ♂♀、クッパJr.など）はデータ用意してるけど、確認はしてない。漏れあるかも。 Example 1 ['マリオ', 'マリオ', 'マリオ'] [5.536537823295048, 6.301248636752482, 6.390935400999263] ['ドンキーコング', 'ディディーコング', 'ルキナ'] [5.539215799855154, 9.311677857638966, 9.606319879292924] {'fighters': {0: {'chara_name': 'マリオ', 'name': 'ぷれしいやー', 'damage': 0.0}, 1: {'chara_name': 'ドンキーコング', 'name': 'DONKEY KONG', 'damage': 0.0}}} FPS: 2.286091 (0.437428 s) Example 2 ['マリオ', 'マリオ', 'マリオ'] [5.971331723619266, 6.220896989804241, 6.286527104504024] ['ドンキーコング', 'ディディーコング', 'ロボット'] [5.520510947750764, 9.599002436376757, 9.670321221911154] ['リンク', 'ルキナ', 'シュルク'] [5.455176600531569, 8.748479515310487, 8.780689053687928] {'fighters': {0: {'chara_name': 'マリオ', 'name': 'tbここ', 'damage': 0.0}, 1: {'chara_name': 'ドンキーコング', 'name': 'DONKEY KONG', 'damage': 0.0}, 2: {'chara_name': 'リンク', 'name': '1旧い|', 'damage': 0.0}}} FPS: 1.381940 (0.723621 s) Example 3 ['マリオ', 'マリオ', 'マリオ'] [5.5006358082686555, 5.74951932443511, 5.7915505642106995] ['ドンキーコング', 'ディディーコング', 'ルキナ'] [4.692127133850047, 9.475091942436732, 9.545288243557097] ['リンク', 'シュルク', 'ルキナ'] [4.3889363397440455, 8.67419528745303, 8.707431208635597] ['サムス', 'ダークサムス', 'ケン'] [4.181132231378159, 8.547772471042341, 8.683606629158557] {'fighters': {0: {'chara_name': 'マリオ', 'name': '1に', 'damage': 0.0}, 1: {'chara_name': 'ドンキーコング', 'name': 'IDONKEY KONG', 'damage': 0.0}, 2: {'chara_name': 'リンク', 'name': 'LINK', 'damage': 0.0}, 3: {'chara_name': 'サムス', 'name': 'SAMUS', 'damage': 0.0}}} FPS: 1.227384 (0.814741 s)

SSBUFrameAnalyzer

About GitHub - aoirint/SSBUFrameAnalyzer いまのところ、スマブラSPのスクリーンショットから「ダメージ値」・「おなまえ」を取得できる（ただし2人対戦のみ）。フルで毎フレーム処理できるほどのFPS出ないと思う。適当なSSで動かした目安FPS（ノートPC）: 2.766284 (0.361496 s) 基本的にターゲットの場所を（座標決め打ちで）切り抜いて処理にかけてる。ダメージ値の取得 HOG特徴量使ったk-nnにしたけど、適当に確認して（写真と違ってノイズ入らないし、バリエーションも少ない）問題なさそうだったのでとりあえずTop1しか使ってない。すごい。（被ダメージ・ふっとびで）エフェクトかかると取れなくなるだろうけど、自動化するなら前フレーム維持/スキップでいいと思って考慮してない。参照データ数減らせばちょっと速くなるだろうけど、OCRの方が負荷大では（試合中にほぼおなまえ変わらないし、別にいいのか？団体戦？）。おなまえの取得 Tesseract使ってOCR。たまに精度あやしいけどだいたいOK。すごい。か→が、ぷ→ふ、みたいに濁点/半濁点に弱そう。おなまえの長さ上限10文字までいけると思う（ひらがな10文字はためしてOK）。 TODO ファイター数の推定どうすればいいんだ。（自動化して連続的にとるなら）一回推定すればいい気がするから、遅延気にせずHOG系の枠を一通り試行してうまくいった組み合わせを採用？各種bboxの自動算出ファイター種類（キャラクター）の推定 HOGでいけるだろうけど、データ集めが面倒ストック数の推定ホカホカ（高被ダメージ）のときエフェクトが重なるのがあぶない残タイムの推定タイム∞のとき表示されない例外背景ころころ変わるので精度出そうと思ったらknnな気がする…… Example {'fighters': {0: {'name': 'ふれいやー', 'damage': 141.3}, 1: {'name': 'KOOPA', 'damage': 101.5}}} FPS: 2.499149 (0.400136 s) 濁点/半濁点は苦手…。プレイヤー→フレイヤーさん。

ログ監視 Python watchdog（ログローテーション未完成）

アプリケーションのログファイルを監視するシステムをつくる。ファイルの更新をきっかけにコマンド実行 (python編) - Qiita ログ監視スクリプト - Qiita 上の2つをがっちゃんこしたやつを作った。ファイルの変更監視はwatchdog、読み取りはふつうのIO。 ※ うーん、ログローテーション対応が微妙かも from watchdog.observers import Observer from watchdog.events import FileSystemEventHandler import time import os from stat import * class FileWatchHandler(FileSystemEventHandler): def __init__(self, path): self.path = os.path.realpath(path) self.fp = None self.fpos = None self.init() filesize = os.stat(self.path)[ST_SIZE] self.fp.seek(filesize) # ファイル末尾 self.fpos = filesize def init(self): fp = self.fp if fp: fp.close() fp = open(self.path, 'r') self.fp = fp self.fpos = None def on_created(self, event): if event.src_path == self.path: print('reset') self.init() def on_modified(self, event): if event.src_path == self.path: print('modified') self.tail_f() def tail_f(self): if self.fpos: self.fp.seek(self.fpos) while True: self.fpos = self.fp.tell() line = self.fp.readline() if not line: break self.analyze(line) def analyze(self, line): # TODO: print('!', line) def close(self): self.fp.close() path = 'test.txt' handler = FileWatchHandler(path) observer = Observer() observer.schedule(handler, os.path.dirname(os.path.realpath(path))) observer.start() try: observer.join() except KeyboardInterrupt: pass observer.stop() handler.close() print('closed') ※ ちょっと修正してみたけど、やっぱり微妙 ...

Open JTalk mpg123

Open JTalkの出力したwavをmpg123で再生したらエラー出た。 [src/libmpg123/layer1.c:30] error: Illegal bit allocation value. [src/libmpg123/layer1.c:171] error: Aborting layer I decoding after step one. ffmpegでmp3に変換して再生するとok。mpg123では同じくエラーで変換できなかった。 ffmpeg -i b.wav b.mp3 mpg123 b.mp3 ffmpegのinfo Guessed Channel Layout for Input Stream #0.0 : mono Input #0, wav, from 'b.wav': Duration: 00:00:01.17, bitrate: 768 kb/s Stream #0:0: Audio: pcm_s16le ([1][0][0][0] / 0x0001), 48000 Hz, mono, s16, 768 kb/s Input #0, mp3, from 'b.mp3': Metadata: encoder : Lavf57.56.101 Duration: 00:00:01.20, start: 0.023021, bitrate: 65 kb/s Stream #0:0: Audio: mp3, 48000 Hz, mono, s16p, 64 kb/s ffmpeg -i b.wav c.wav これもダメ ...

Open JTalk

# Open JTalk Test # python3 # exec `apt install open-jtalk open-jtalk-mecab-naist-jdic` # get `mei_normal.htsvoice` from http://www.mmdagent.jp/ import subprocess p = subprocess.Popen('open_jtalk -x /var/lib/mecab/dic/open-jtalk/naist-jdic -m mei/mei_normal.htsvoice -r 1.0 -ow /dev/stdout', stdin=subprocess.PIPE, stdout=subprocess.PIPE, stderr=subprocess.PIPE, shell=True) text = 'こんにちは' out, err = p.communicate(text.encode('utf-8')) print(text) print(err) # outにwavのバイナリが入ってる。必要に応じてここ変えてね with open('b.wav', 'wb') as fp: fp.write(out) subprocess で shell=True でリストを与えたときの挙動 - Qiita 合成音声(Open Jtalk)でwavファイルを作成しないで再生する - Qiita python - input directly in process.communicate() in subprocess library - Stack Overflow subprocessについて調べたメモ - Qiita Debian Jessie に OpenJtalk を入れてテキストを読み上げてみた - 残しときます（自分用）日本語音声合成Open JTalkをPythonから実行する - 動かざることバグの如し mmdagent.jp Open JTalk - HMM-based Text-to-Speech System See also mpg123