福岡は難読駅名が多いので - 晴れたり沼ったり

来月、実にあほなことをやりに福岡に行く予定である。

本当は北海道に行く前にやりたかったのだがあまりの猛暑とやむを得ない用事に阻まれ順番が逆になってしまった。ま、北海道は来年もいくから一年伸びただけだけど。

実にあほなことの内容: 福岡県のある駅(最初の駅は判明済み)に行き、そこで出されるクズに回答し次の駅に行くというのを最初の駅を含め8回こなすとゴールというあほなミステリーツアーである。

クイズの答は福岡の駅名なのだが、福岡は比較的難読なのが多い。すんなり解けるかどうかは駅名を把握しておくことがキーポイントである。

東京だってめちゃな駅名無いとは言わないが慣れてないので福岡は難読度が高い:-) 大体読めてもそこ、そういうふうに読む？？？ってのもある。

#もちろん北海道のほうが難読駅名地名多いけどね。

朝倉街道なぜがいどうと濁る???

永犬丸えいけんまるじゃない

遠賀野えんがのって読んでしまいそうだがおんがの

春日原語尾ははると読む。原をはると読むのは他にも多いので慣れればOK

香春かはるじゃないの？

桂川かつらがわって読んでしまう

朽網くさみとは読むのは難しい

篠栗しのぐりと読んでしまいそう

雑餉隈難読

築城普通にちくじょうとか読んでしまう

天道濁らない

津福なぜか濁る

ということで読みと駅名はテキストファイルにしたんだけどどうせなら検索出来たほうがいいねということで notion のデータベース化することに。

駅名一覧はどっかから適当に持ってきて CSV で駅名よみ,駅名,路線名というテキストから perl のやっつけ仕事で10行ちょっとのスクリプトを書いて読みの文字数、読みの1文字目... 6文字目　を自動生成してCSV化するようにした。

これを notion に読み込ませればこんな感じに。

駅名全体の文字数がわかってればそれでフィルタリング、3文字目が[ま]とわかってればそれでフィルタリング、フィルタリングの組み合わせもできる。 notion さすが！！ HP200LXのGDB、それ以降のportabaseの移行先としてはほぼ完璧。しかもevernote的にも使える。他人にデータ/ノートを共有しようとしなければ無料でほぼ困ることもない。

ちなみに、notionで上記のように数字やテキストの表示幅をデフォルトより小さくするには一度チェックボックスタイプにプロパティを変更、幅を好みに小さくする、再度テキストに変更するというやり方でできる(ここ参照 ←面倒だけどお役立ち)。チェックボックスタイプにしてもデータをいじらなければもとの値は保持されてるのでテキストに戻した時に True/Falseになってるというようなことはない。

一応スクリプトはこんな感じ。エラー対策もしてないし色々決め打ち(ファイルはUTFオンリー、データ数が足りないことはない)だし、入出力はリダイレクトのみだし、1-6文字目のとこはループにしてないし(これはやるとprintの方でもループまたは長い記述になるので判読性はこっちのほうがましという言い訳)でやっつけ仕事以外のなにものでもない:-)

#!/usr/bin/perl
use utf8;
use Encode qw/encode decode/;

while(my $line = <>) {
@l = split(/,/, $line, 3);;
$l0 = decode('UTF-8', $l[0]);
$len = length($l0);
$c1 = encode('UTF-8',substr($l0,0,1));
$c2 = encode('UTF-8',substr($l0,1,1));
$c3 = encode('UTF-8',substr($l0,2,1));
$c4 = encode('UTF-8',substr($l0,3,1));
$c5 = encode('UTF-8',substr($l0,4,1));
$c6 = encode('UTF-8',substr($l0,5,1));
print "$l[0],$l[1],$len,$c1,$c2,$c3,$c4,$c5,$c6,$l[2]";
}

いまは福岡県の駅名しか入れてないけど日本語のフリーの漢字変換用の辞書(ICOTのとかpubdic)とかで作ればクロスワードパズルの解答/作成のお助けツールとかにもなりそう。1行単位がnotionでいうページなので、行が途方もなく多くてもたぶんnotionのフリー版の制限には引っかからないと思う。

mozc の辞書データが良いかな？と思って見てみたが、かなりヘンな辞書データになっててノイジーで難しそう。なんか良い辞書ないかなあ....

23/12/23 追記
無事達成してきました。このプログラムで作ったDBの登場は必要なかった。

数字っぽい問題と見た瞬間にわかるやつと、ヒントのストーリーを読まないと皆目検討がつかないやつとありました(最終問題はさすがにググらんとわからんかった)。

さて次は北海道。来年の春か秋にやる予定。