« 詰将棋メモ(2016年1月15日) | トップページ | 詰将棋メモ(2016年1月16日) »

詰将棋創作プログラミング 14 同一作リストの作成

[2016年1月16日最終更新]

詰将棋創作プログラミング 14 同一作リストの作成

プログラムで、データベースに収録されている既存の詰将棋を利用しようとするとき、問題になるのが同一作が複数回登場することである。これは、発表時以外にも紹介されたときにもデータベースに登録されるからだ。ランダムに自動創作などこれまでの取り組みでは、そんなに多くないだろうと無視していたが、これはいろいろな最適値を求めたりするときノイズになるので、できれば取り除いて利用したい。

前回詰将棋創作プログラミング 13 詰将棋データベースの活用でちょっと触れた同一図番号リストファイルの作成はこの準備として開発したものである。

ktbu020.rb 同一図番号リストファイルの作成
ts.ktkの番号のリストtslist.txtを作成する
行nには、同一作があればその番号、なければnを格納

実行してみたところ、登録数256592作のうち18.2%、46827作が同一図だった。

同一図のほとんどは過去作の紹介によるものだが、中には別な作者名で発表されているものがある。いわゆる衝突(あるいは流用、盗作)のケースである。新作の場合、同一図があるかどうかは詰将棋同一検索で調べられるが、既存作品の場合はあらかじめ調べられるので、リストを作っておくと便利そうだ。

そこで、同一作リストファイル作成プログラムを開発することにした。

ktbu021.rb 同一作リストファイル作成
ts.ktkに登録されている詰将棋で、同一作で作者名が異なるものをリスト。
結果はdoitsu.txt、doitsu.ktkに格納する

実際に動かしてみると、かなりいろいろな問題があることがわかった。

1)データベースで発表なのか紹介なのか区別する情報がない。一応出典という項目があるのだが、発表の場合にも「デパート」とか発表コーナーに使っているデータもあって、識別が難しい。

2)そこで、「同一図があって作者名が同じとき発表年月の新しい方が紹介」という判定をするしかなさそうだが、ここで問題になるのが記述の誤りおよびゆらぎである。

a)斎藤を斉藤と誤ったり齋藤を使ったりするケース
b)初代大橋宗桂を初代宗桂、大橋宗桂(初代)など表記が異なるケース
c)発表時はペンネームだが、紹介したときは本名で紹介するケース
d)作者名でなく編者名や紹介者名などが記載されているケース
e)不明、作者知らず、大道棋などと記載されているケース

発表年月もデータにより西暦、年号が混ざっていて、xxxx年xx月、xxxx/xx、xxxxxxなども混在している。発表誌の項目に "中日スポーツ 2013年08月07日 P.0" などど入っているケースもある。

データベース全体の修正は件数が多くて困難なので、不明などは非対象としたり作者名を正規化したり頭2文字だけで一致とみなしたりプログラムで個別に意識して対策することにした。気づいた中で影響が大きそうなところを修正しただけで、まだ誤りや漏れは多いと思うので、リストを見るときには留意されたい。

実行した結果は次のような感じ。新しい(と思われる)順に出力している。


2016-01-16T00:59:09+09:00 同一作ファイル作成開始
2016-01-16T00:59:09+09:00 詰将棋データベースを読み込みます
2016-01-16T00:59:10+09:00 収録詰将棋数:256592
2016-01-16T00:59:21+09:00 同一図番号リストファイルtslist.txtを読み込みます
2016-01-16T00:59:21+09:00作者名が異なる同一作を調べます
##### No.1245 坂田慎吾 詰パラP6 2015年5月  ヤング03同一作あり
同一:No.104937 鈴木明 将棋ジャ-ナル 1992年10月  詰将棋ライフ
##### No.1490 中田章道 将棋世界P220 2015年4月  実戦に役立つ5手7手詰01
同一:No.100711 山本進 近代将棋P139 1993年10月 朝の詰将棋
##### No.2393 中田章道 将棋世界P223 2014年12月  実戦に役立つ5手7手詰06
同一:No.139123 二上達也 詰棋通信81号P008 1985年4月 1984.5.6 日刊スポーツ
##### No.3002 坂東仁市 詰パラ 2014年08月 ヨチヨチルーム
同一:No.15279 佐藤義則 週刊大衆P000 2012年6月 
##### No.3036 竹園政秀 詰パラ 2014年08月 詰将棋学校(高等学校) 同一作あり
同一:No.30855 妻木貴雄 将棋世界P215 2009年9月 詰将棋サロン

(中略)

##### No.246592 加唯 諸国象戯作物集坤巻P090 元禄13 
同一:No.255797 別所素庵 素庵作物P044 江戸初 諸国作物集90 (加唯)
作者名の違う同一図があった詰将棋数:2846
2016-01-16T01:01:21+09:00 作者名の違う同一作のリストをdoitsu.ktk、doitsu.txtに出力しました
2016-01-16T01:01:21+09:00同一作ファイル作成完了

全文は「doitsu.txt」をダウンロード

(ブラウザで表示して文字化けするときはテキストエンコーディングを日本語(Shift_JIS)に設定)


全部で3000作近くあって意外に多い。リストを見ると、将棋専門誌以外の一般誌紙で発表された作品(主にプロ棋士が出題)、そしてスマホ詰パラの作品が多い(2014年、2015年はまだこれらのデータは収録されていない)。これらはシンプルな図が多いので偶然の一致ももちろんあるだろうが、プロ棋士でも北浜八段などリストに全くでてこない人もいれば毎年何回も登場している人もいて、意識の差を感じさせる。今は誰でも詰将棋同一検索で調べられるのだから、流用を続けているような人はいずれ淘汰されていくと思いたい。

本当は途中図を含めた同一作リストを作りたかったが、初形だけでもかなり時間がかかったことを考えると、もう少し高速化の手法を考えないと無理そうなので、これはまたいずれ。1作だけのチェックなら短時間でできるので、詰将棋同一検索でサポートしてくれることも期待したい。

|

« 詰将棋メモ(2016年1月15日) | トップページ | 詰将棋メモ(2016年1月16日) »

コンピュータ詰将棋」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック


この記事へのトラックバック一覧です: 詰将棋創作プログラミング 14 同一作リストの作成:

« 詰将棋メモ(2016年1月15日) | トップページ | 詰将棋メモ(2016年1月16日) »