背景

自分が書いた前の記事、「自然言語系サービス色々試してみた」の中でも引用させて頂いた「言語処理100本ノック 2015」。
各種自然言語サービスをもっと試す前に、基礎を固めておこうと思ってこの100本ノックを少しずつ進めている状況。ここで、問題83に関して気になる表現がある。

なお，問題83を素直に実装すると，大量（約7GB）の主記憶が必要になる．メモリが不足する場合は，処理を工夫するか，1/100サンプリングのコーパスenwiki-20150112-400-r100-10576.txt.bz2を用いよ．

この100本ノックを進めている理由の一つは自然言語処理の感覚をつかむ事。必要なデータの規模も肌で感じておくべき点の一つ。ここは標準のデータで進めたい。

問題80~82ダイジェスト

問題80：コーパスの成型

記号などの不要文字除去。正規表現使って処理。入力ファイル221.9MB

ソース

importreFNAME_80_WORD='enwiki-20150112-400-r10-105752-word.txt'deffilteredWords(s_line):wkwords=s_line.split(' ')wkcaredwords=[]forwkwordinwkwords:wkcaredword=re.sub('^[ \.,!\?;:()\[\]\'"]*','',wkword)wkcaredword=re.sub('[ \.,!\?;:()\[\]\'"]*$','',wkcaredword)wkword2=wkcaredword.lower()iflen(wkword2)>0:wkcaredwords.append(wkword2)returnwkcaredwordsdeflesson80():f_wikiorg=open('enwiki-20150112-400-r10-105752.txt','rt')f_wikiword=open(FNAME_80_WORD,'wt')try:fors_lineinf_wikiorg:wkwords=filteredWords(s_line.strip())iflen(wkwords)>0:wkline='\n'.join(wkwords)f_wikiword.writelines(wkline+'\n')finally:f_wikiorg.close()f_wikiword.close()

問題81：複合語からなる国名への対処

連結語処理。webページをあさって作った国名リストのファイル（countrynames_sort.txt）を作成。そのファイルを読んで、複合語マッチ用のツリー的なディクショナリ作成。
入力ファイル725.8MB

ソース

TREE_END_KEY='_end_'defgetCountryNameTree():retmap={}f_countryNameOrg=open('countrynames_sort.txt','rt')try:fors_lineinf_countryNameOrg:iflen(s_line)>0:wkwdlist=s_line.split(' ')wkwdmap=retmaplastidx=len(wkwdlist)-1foridx,wordinenumerate(wkwdlist):wkwd=word.rstrip().lower()ifnotwkwdinwkwdmap.keys():wkwdmap[wkwd]={}wkwdmap=wkwdmap[wkwd]ifidx==lastidx:wkwdmap[TREE_END_KEY]='dmmy'finally:f_countryNameOrg.close()# print(retmap['the'])
returnretmapFNAME_81_WORD='enwiki-20150112-400-r10-105752-81.txt'deflesson81():countryNameTree=getCountryNameTree()f_wikiword=open(FNAME_80_WORD,'rt')f_wikijoin=open(FNAME_81_WORD,'wt')# f_wikiword = open('enwiki-20150112-400-word.txt', 'rt')
# f_wikijoin = open('enwiki-20150112-400-81.txt', 'wt')
try:poollist=[]wkTree=countryNameTreeforwordorginf_wikiword:word=wordorg.strip()wkwd=word.lower()ifwkwdinwkTree.keys():poollist.append(word)wkTree=wkTree[wkwd]ifTREE_END_KEYinwkTree.keys():f_wikijoin.writelines('_'.join(poollist)+'\n')poollist=[]wkTree=countryNameTreeelse:iflen(poollist)>0:forpoolwdinpoollist:f_wikijoin.writelines(poolwd+'\n')poollist=[]wkTree=countryNameTreef_wikijoin.writelines(word+'\n')iflen(poollist)>0:forpoolwdinpoollist:f_wikijoin.writelines(poolwd+'\n')finally:f_wikiword.close()f_wikijoin.close()

問題82：文脈の抽出

ランダムで最大前後５単語とのセットを作成する問題。11語の読み込みプールを使用し、シーケンシャルに処理できるようにして対応。入力ファイルは725.8M。出力ファイルが8.7G!!

ソース

importrandomMAX_REL_SPAN=5defappendRelWord(f_wikirel,wordorg,poollist):span=random.randint(1,MAX_REL_SPAN)forwkidxinrange(MAX_REL_SPAN-span,MAX_REL_SPAN):iflen(poollist[wkidx].strip())<1:continuef_wikirel.writelines(wordorg+'\t'+poollist[wkidx]+'\n')forwkidxinrange(MAX_REL_SPAN+1,MAX_REL_SPAN+span+1):iflen(poollist[wkidx].strip())<1:continuef_wikirel.writelines(wordorg+'\t'+poollist[wkidx]+'\n')FNAME_82_PAIRS='enwiki-20150112-400-r10-105752-82.txt'deflesson82():f_wikijoin=open(FNAME_81_WORD,'rt')f_wikirel=open(FNAME_82_PAIRS,'wt')try:poollist=[]# 冒頭に５個分空白ダミーセット
foridxinrange(1,MAX_REL_SPAN+1):poollist.append('')print(poollist)r_wdcnt=0forwordorginf_wikijoin:word=wordorg.strip().lower()iflen(word)<1:continue# pool words.
poollist.append(word)ifr_wdcnt<MAX_REL_SPAN:r_wdcnt+=1continueappendRelWord(f_wikirel,poollist[MAX_REL_SPAN],poollist)poollist.pop(0)r_wdcnt+=1# 残り分出力
foridxinrange(1,MAX_REL_SPAN+1):poollist.append('')appendRelWord(f_wikirel,poollist[MAX_REL_SPAN],poollist)poollist.pop(0)finally:f_wikijoin.close()f_wikirel.close()

今回の主題、問題83

単語／文脈の頻度の計測 82の出力を利用し，以下の出現分布，および定数を求めよ．
$f(t,c)$ : 単語tと文脈語c の共起回数
$f(t,∗)$ : 単語t の出現回数
$f(∗,c)$ : 文脈語c の出現回数
$N$ : 単語と文脈語のペアの総出現回数

まず問題の理解から。1番目は、82で出力したペアで同じものをカウントするらしい。tとcが逆になった場合も含めるのか迷ったが、一旦分けた。2,3番目は単純に各単語のカウント、4番目は読み込んだデータ件数という事と思われる。

まずは様子見

まずは1000行分とりだしたファイル作成。それで試してみる。
ファイルを順次、読み込み、ディクショナリオブジェクトを使用。単語をキーに、値に回数を保持する。全部カウント終わってから、そのディクショナリを出力するロジック。（※この時のソースを取っておかなかった。反省。）

出力結果抜粋

t&c出現回数

Anarchism   Anarchism   2
Anarchism   is  2
Anarchism   a   3
Anarchism   political   1
Anarchism   philosophy  1
Anarchism   that    1
is  Anarchism   2

c出現回数

Anarchism   31
is  68
a   92
political   19
philosophy  40
that    42
advocates   6
stateless   8

うまく行ってそう。フルファイルで実行してみる。

はい、強制終了の文字がコンソールに出力されました。Ubuntu18.04、4GBのVMWare仮想マシンで実行。リソースモニタつけながら実行すると、当然の如くメモリ使用量が増えていき、4GBぐらいの所で強制終了。単語数が極端に多くなければメモリはそんなに使用しないだろうと踏んでいたけど、甘かった。
素直に実装というのが全データをリストに保持してCount機能で数えるという実装かと思っていたが、そうではなかった様子。

工夫とやらを考えてみる

単語毎の件数保持オブジェクトですら耐えられない状況。
シーケンシャルにファイルを読み込み、シーケンシャルに結果出力する事が求められている。
確かに課題80からシーケンシャル処理は意識していた。おそらく読み込みファイルのデータ量に比例するメモリオブジェクトがあるロジック使っていたらその時点で問題出ていたと思われる。
この問題では、ファイル中に散らばっている単語をカウントする為に、カウント数をそれぞれの単語毎に保持する必要があった。

問題が発生する原因を消す

シーケンシャルに処理する為には、ファイル中にワードが散らばっているという条件を無くさなくてはいけない。ソートが必要。とはいえ、普通に読み込んでソート出力してたら結局そこでメモリが耐えられない。メモリ耐えられる程度にファイル分割してそれぞれソートしてからマージするしかない。あまりそこに時間かけたくない・・・・
ふと、Linuxのsortコマンドって行けるんじゃね？と思って調べてみたら「sort コマンドで大容量テキストをソートする」という記事を発見。やはり大容量ファイルに耐えられるらしい。

単語tと文脈語cそれぞれにソートファイルを作成

sort-f enwiki-20150112-400-r10-105752-82.txt > enwiki-20150112-400-r10-105752-82-st.txt
sort-f-k 2 enwiki-20150112-400-r10-105752-82.txt > enwiki-20150112-400-r10-105752-82-sc.txt

ちなみに、このソート処理にそれぞれ40分ぐらいかかった。8.7Gだしね・・・

結果出来上がったソース

# 文中にマルチバイトや特殊文字が含まれていたので除外用
re_check=re.compile(r'[A-Za-z]')N=0# f(t,c) : 単語tと文脈語c の共起回数
# f(t,∗) : 単語t の出現回数
wkPairCnt=0wkWordCnt=0wkPairWd=''wkWordWd=''f_wikirel=open('enwiki-20150112-400-r10-105752-82-st.txt','rt')f_wikifreq_tc=open('enwiki-20150112-400-r10-105752-83-tc.txt','wt')f_wikifreq_t=open('enwiki-20150112-400-r10-105752-83-t.txt','wt')try:forwordorginf_wikirel:pair=wordorg.rstrip()elems=pair.split('\t')ifnotre_check.match(elems[0])ornotre_check.match(elems[1]):continueifpair==wkPairWd:wkPairCnt+=1else:ifwkPairCnt>0:f_wikifreq_tc.writelines('{0:s}\t{1:d}'.format(wkPairWd,wkPairCnt)+'\n')wkPairWd=pairwkPairCnt=1word=elems[0]ifword==wkWordWd:wkWordCnt+=1else:ifwkWordCnt>0:f_wikifreq_t.writelines('{0:s}\t{1:d}'.format(wkWordWd,wkWordCnt)+'\n')wkWordWd=wordwkWordCnt=1N+=1ifwkPairCnt>0:f_wikifreq_tc.writelines('{0:s}\t{1:d}'.format(wkPairWd,wkPairCnt)+'\n')ifwkWordCnt>0:f_wikifreq_t.writelines('{0:s}\t{1:d}'.format(wkWordWd,wkWordCnt)+'\n')finally:f_wikirel.close()f_wikifreq_tc.close()f_wikifreq_t.close()print('N={0:d}'.format(N))# f(∗,c) : 文脈語c の出現回数
wkRelCnt=0wkRelWd=''f_wikirel_c=open('enwiki-20150112-400-r10-105752-82-sc.txt','rt')f_wikifreq_c=open('enwiki-20150112-400-r10-105752-83-c.txt','wt')try:forwordorginf_wikirel_c:pair=wordorg.rstrip()elems=pair.split('\t')ifnotre_check.match(elems[0])ornotre_check.match(elems[1]):continueword=elems[1]ifnotre_check.search(pair):continueifword==wkRelWd:wkRelCnt+=1else:ifwkRelCnt>0:f_wikifreq_c.writelines('{0:s}\t{1:d}'.format(wkRelWd,wkRelCnt)+'\n')wkRelWd=wordwkRelCnt=1ifwkRelCnt>0:f_wikifreq_c.writelines('{0:s}\t{1:d}'.format(wkRelWd,wkRelCnt)+'\n')finally:f_wikirel.close()f_wikifreq_c.close()

こちらの処理もそれぞれ40分ぐらい。出力されたファイルサイズは、f(t,c)用のファイルは1.9G、f(*.c)、f(t,c)用のファイルはそれぞれ18M。N=674,574,652。

そして後で思い出す。100本ノックの問題19を。

各行の1コラム目の文字列の出現頻度を求め，出現頻度の高い順に並べる

uniq --count で行けた課題だったかも。Python内でシェルコマンド打てるしね。100ノックで「第2章: UNIXコマンドの基礎」があるのは重要な意味があったという事ですね。

補足

変なコントロール文字が入っているのか、OSのソート順と、pythonでの文字列比較が異なるのか（参考）、本来スペース区切りで２つの文字に分けられているべき「a$600 million」とか出てきたり「a–a」とかが複数件出てきたりしてた（ソートされていれば複数回出てこないはずのもｍの）。この手のワードは後続処理には影響しないと思われ、今回は無視。

ついでに問題84も

単語文脈行列の作成 83の出力を利用し，単語文脈行列Xを作成せよ．ただし，行列Xの各要素Xtcは次のように定義する．
$f(t,c)≥10$ ならば，$Xtc=PPMI(t,c)=max \{ log\frac{N×f(t,c)}{f(t,∗)×f(∗,c)},0 \} $
$f(t,c)<10$ ならば，$Xtc=0$
ここで，PPMI(t,c) はPositive Pointwise Mutual Information（正の相互情報量）と呼ばれる統計量である．
なお，行列Xの行数・列数は数百万オーダとなり，行列のすべての要素を主記憶上に載せることは無理なので注意すること．
幸い，行列Xのほとんどの要素は0になるので，非0の要素だけを書き出せばよい．

とりあえずフィルタ

出現回数が10回以下は無視という事。f(t,c)で10回出てくるt,cの単語はf(.c)、f(t,)それぞれ10以上で出現するので、こちらもフィルタ。まず、Linuxコマンドにより回数で逆ソートして、その後フィルタ。

10回以下を除外するソース

importsubprocessFNAME_83_TC='enwiki-20150112-400-r10-105752-83-tc.txt'FNAME_83_C='enwiki-20150112-400-r10-105752-83-c.txt'FNAME_83_T='enwiki-20150112-400-r10-105752-83-t.txt'FNAME_84_SORTED_TC='enwiki-20150112-400-r10-105752-84-tc-wk.txt'FNAME_84_SORTED_C='enwiki-20150112-400-r10-105752-84-c-wk.txt'FNAME_84_SORTED_T='enwiki-20150112-400-r10-105752-84-t-wk.txt'FNAME_84_FILTERED_TC='enwiki-20150112-400-r10-105752-84-tc-wk2.txt'FNAME_84_FILTERED_C='enwiki-20150112-400-r10-105752-84-c-wk2.txt'FNAME_84_FILTERED_T='enwiki-20150112-400-r10-105752-84-t-wk2.txt'defsortBaseFile(input,output,idx):f_wiki_matrix=open(output,'wt')try:commandlist=[]commandlist.append('sort')commandlist.append('-n')commandlist.append('-k')commandlist.append(str(idx))commandlist.append(input)commandlist.append('--reverse')subprocess.check_call(commandlist,stdout=f_wiki_matrix)exceptExceptionase:print(e)print("subprocess.check_call() failed")finally:f_wiki_matrix.close()sortBaseFile(FNAME_83_TC,FNAME_84_SORTED_TC,3)sortBaseFile(FNAME_83_T,FNAME_84_SORTED_T,2)sortBaseFile(FNAME_83_C,FNAME_84_SORTED_C,2)deffilterLowFreqWord(input,output,idx):f_wiki_tc_wk=open(input,'rt')f_wiki_tc_flt=open(output,'wt')try:forwordorginf_wiki_tc_wk:pair=wordorg.rstrip()elems=pair.split('\t')count=int(elems[idx])ifcount<10:breakf_wiki_tc_flt.write(wordorg)finally:f_wiki_tc_wk.close()f_wiki_tc_flt.close()filterLowFreqWord(FNAME_84_SORTED_TC,FNAME_84_FILTERED_TC,2)filterLowFreqWord(FNAME_84_SORTED_T,FNAME_84_FILTERED_T,1)filterLowFreqWord(FNAME_84_SORTED_C,FNAME_84_FILTERED_C,1)

フィルタ後、f(t,c)用のファイルは87M、f(.c)、f(t,)用のファイルは8M前後。件数確認してみる。

$cat enwiki-20150112-400-r10-105752-84-c-wk2.txt | wc-l598055
$cat enwiki-20150112-400-r10-105752-84-t-wk2.txt | wc-l680966
$cat enwiki-20150112-400-r10-105752-84-c-wk.txt | wc-l1408618
$cat enwiki-20150112-400-r10-105752-84-t-wk.txt | wc-l1406929

うーん、課題83の中で、勝手にアルファベットで開始しない文字を除外したりしたからかな？フィルタ前でも140万件程度。問題文によれば数百万程度になるはずなのだが・・・途中経過がまちがってる可能性もあり。100本ノックは固定した答えはなさそうで、答え合わせをするのが難しい。

ロジック考察

どのような出力をすると後続処理で都合が良いか不明だが、行列情報の出力なので、行、列のインデックス及び値を出力することにする。
この処理では、３つの情報が必要になる。f(t,c)、f(.c)、f(t,)の３つ。f(t,c)をシーケンシャルに処理する時、f(t,*)に関しても同じ順序で取得できるのでこの２つは大丈夫。しかし、f(t,c)に関して使用される文脈語cは同一単語t内ではシーケンシャルだが、全体的に見るとほぼランダム。
その度にフルファイルスキャンがかかり現実的でない。メモリを使用しないとすると、キー単語毎に対応するファイルシステム上位置を保持してそこに直接読みに行くぐらいの事をしないとまともな速度にはならない。
・・・ん？まんまKey-Value型DBの特性。自分の以前の記事でも使用したLocalDynamoDBがよさそう。100本ノックでは「第7章: データベース」で学習する。第7章は別件でやっている事なので飛ばしたけど、こういう事も考えてこの順番になってるわけですね。考えられてます。自然言語処理の現場でも状況に応じてKVSとRDBが併用されているだろうと勝手に想像。
まぁ、今回はメモリで処理できるサイズなので普通にメモリ展開して処理。

ソース

defgetCountMap(fname):ret={}f_wiki_t_wk=open(fname,'rt')try:idx=0forwordorginf_wiki_t_wk:pair=wordorg.rstrip()elems=pair.split('\t')info={}info['cnt']=int(elems[1])info['idx']=idxret[elems[0]]=infoidx+=1returnretfinally:f_wiki_t_wk.close()deflesson84():map_t=getCountMap(FNAME_84_FILTERED_T)map_c=getCountMap(FNAME_84_FILTERED_C)f_wiki_tc=open(FNAME_84_FILTERED_TC,'rt')f_wiki_matrix=open(FNAME_84_OUTPUT,'wt')try:fordatawkinf_wiki_tc:data=datawk.rstrip()elems=data.split('\t')t=elems[0]c=elems[1]tc_cnt=int(elems[2])t_inf=map_t[t]t_cnt=t_inf['cnt']c_inf=map_c[c]c_cnt=c_inf['cnt']calcwk=(N_84*tc_cnt)/(t_cnt*c_cnt)ifcalcwk>=1:# log(calcwk) >= 0
outstr='{0:d}\t{1:d}\t{2:f}\n'.format(t_inf['idx'],c_inf['idx'],math.log(calcwk))f_wiki_matrix.write(outstr)finally:f_wiki_tc.close()f_wiki_matrix.close()

出力結果抜粋

0   1   0.532074
1   0   0.531856
3   0   0.170953
0   3   0.170485
・・中略
5   10  0.019082
95  9   3.239342
9   96  3.239448
7   18  1.391988
18  7   1.391669
17  4   0.317417
・・中略
5   56348   0.310076
5   92731   1.067564
5   46752   0.016477
491254  0   2.304729
680965  19  5.516587

教訓

Linuxコマンドを有効活用すべし。高速なロジック使ってるはずだし、安定しているし、多分Cで書かれてて高速なはずだし。（OS依存性は強くなりますが）
このような学習コースをやっていて、詰まった時には、一度コース中で既に学習した部分を見返すと何か解るかも。

参考にさせてもらったページ

sort コマンドで大容量テキストをソートする

sort/lsコマンド出力での記号文字の順番のLC_ALL等への依存

Qiitaの数式チートシート

自然言語処理100本ノック：83の「処理を工夫」に挑戦してみた

背景

問題80~82ダイジェスト

問題80：コーパスの成型

問題81：複合語からなる国名への対処

問題82：文脈の抽出

今回の主題、問題83

まずは様子見

工夫とやらを考えてみる

問題が発生する原因を消す

補足

ついでに問題84も

とりあえずフィルタ

ロジック考察

教訓

参考にさせてもらったページ

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？