ラップの分析part1(データ準備)

目的

実際のラッパーの歌詞を分析することで、何か発見がないかという試みで、特に最終目標があるわけではない。「韻を扱いたい」で行った、テキストがどんな母音の並びを持っているか、に着目して分析していく。用意したデータは対照的な２人のラッパーがいるグループのアルバム８曲分（約９０曲分）である。フリーキーフロウ（音への乗せ方が上手い？！）と韻が固いという違いのある２人だが（説明が難しい）、韻の踏み方や出現回数、好む母音などが見つかることを期待している。~~「１２３」を「ひーふーみー」と読んだり「アンドゥトロワ」と読んだりするので、データはその点に注意してお手製で用意した~~

テキストデータをDataFrameへ

frompykakasiimportkakasiimportreimportpandasaspdimportitertoolswithopen("./data/yoshi.txt","r",encoding="utf-8")asf:data=f.read()#単語リスト。母音のみ使ってできる2文字から4文字の単語。775種類
word_list2=[i[0]+i[1]foriinitertools.product("aiueo",repeat=2)]word_list3=[i[0]+i[1]+i[2]foriinitertools.product("aiueo",repeat=3)]word_list4=[i[0]+i[1]+i[2]+i[3]foriinitertools.product("aiueo",repeat=4)]word_list=word_list2+word_list3+word_list4#一曲ずつに分割。{番号:全角スペース、改行で分割された歌詞のリスト}
text_data=data.split("！")text_data_dic={k:re.split("\u3000|\n",v)fork,vinenumerate(text_data)}kakasi=kakasi()kakasi.setMode('J','a')kakasi.setMode('H','a')kakasi.setMode('K','a')conv=kakasi.getConverter()#{番号:母音に変換したリスト}
vowel_text_dic={}fork,vintext_data_dic.items():vowel_text_dic[k]=[conv.do(d)fordinv]fork,vinvowel_text_dic.items():vowel_text_dic[k]=[re.sub(r"[^aeiou]+","",d)fordinv]#カラム名"aa"等で、値は出現回数。一曲分のカウント表現
count_dic={}temp1=[]temp2=0forwordinword_list:fork,vinvowel_text_dic.items():forvowelinv:temp2+=vowel.count(word)temp1.append(temp2)temp2=0vowel_text_len=0count_dic[word]=temp1temp1=[]df=pd.DataFrame(count_dic)df["label"]=0df.to_csv("./data/yoshi.csv",index=False)

	aa	ai	au	…	ooou	oooe	oooo	label
0	4	9	7	…	1	1	0	0
1	21	18	7	…	1	1	2	0
2	8	18	18	…	1	0	0	0
3	19	26	23	…	0	0	0	0
…	…	…	…	…	…	…	…	…
88	12	14	2	…	0	0	0	0
89	17	17	10	…	1	0	1	0

用意したテキストファイルは各ラッパー毎に２つある。テキスト内で「！」で曲が変わる部分を表し、歌詞中には歌詞カード通り「全角スペース、改行」がある。それをまたいで母音を連続させないようにしている。もう一つのテキストファイルはdf["label"]=1として区別しやすいように保存した。

データの中身を見てみる

importpandasaspddf1=pd.read_csv("./data/pochomkin.csv")df2=pd.read_csv("./data/yoshi.csv")#2文字部分の平均値に着目
df1_2vowel=df1.describe().iloc[:,:25]df1_2vowel=df1_2vowel.loc["mean",:]print(df1_2vowel.sort_values(ascending=False))df2_2vowel=df2.describe().iloc[:,:25]df2_2vowel=df2_2vowel.loc["mean",:]print(df2_2vowel.sort_values(ascending=False))

カラムが776列あるので、分けて見ていく。カラムの文字数毎に平均値が高いものはどうなっているかを確認した（3文字ならiloc[:, 25:150]、5×5×5の125種類、4文字ならiloc[:, 150:775]）。2文字の場合、print結果はdf1,df2ともに上位4つが「ai,ia,ou,aa」で一致し、3文字の場合上位2つ「aia,aai」が一致した。また、どの場合もdf2の方が平均値が高くなっていた。

#それぞれ列方向に合計し、その値を取得。(約90曲でのカウント数)
value_count_1=df1.sum(axis=0).valuesvalue_count_2=df2.sum(axis=0).values#カウント10回未満となるbool値。10未満がTrue
bool_1=value_count_1<10bool_2=value_count_2<10#両方でカウント10回未満の母音の並びをprint
print(df1.columns[bool_1*bool_2])

2つのデータ両方で頻度が少ない母音の並びを調べると、37個が該当しその多くは「ee」を含む4文字母音だった。

まとめと今後の方針

上位に一致が見られた結果は、日本語にその母音の並びが多いのかもしれないし、ラッパーが好むものなのかもしれない。はたまた「餓鬼（ai）レンジャー」というグループ名ゆえに、用意したデータで頻出しているかもしれない。自分は「aa」という並びは「だらだら、体が、さまざま」等「aaaa」の言葉が数多く存在するため、「aa」が一番頻出していると予想していたが、違った結果が出ておもしろい。しかしながら、いくらラッパーの歌詞をデータにしているとはいえ、全ての母音が韻に関係しているわけではないので、何とも言えない。もう一つ予想していた「ラッパー毎に好む母音の並びがある」についても思っているほど顕著に特徴の違いが出ておらず、そこに焦点を当ててもどうだろう？という感じである。今回言えるのは、df2側のラッパー（韻が固い）はdf1のラッパーより同じ母音の並びを頻出させているようだ。これは予想通りではある。
「ee」の頻度が少ないことも新たな発見だ。音が取りにくい等、ラッパーが避ける理由があるのかもしれない。
データを2つに分けておけば、その分類が出来るかも？という感覚だったが、どうもそう簡単にはいかなそうである。今後もう少しデータを見ていき、2人の違いがあるのか、またはないのか調べていこうと思う。

ラップの分析part1(データ準備)

目的

テキストデータをDataFrameへ

データの中身を見てみる

まとめと今後の方針

Trending Articles

モーツァルトディヴェルティメント変ホ長調 K.563 の名盤

井上貴博アナウンサー彼女や結婚の噂は？実家や親が話題？人気は？

Ke Aloha Kalikimakaの歌詞を和訳します

PaliのLepe `Ula`ulaと歌詞の和訳

2014年6月6日号　三菱東京ＵＦＪ銀行（5月14日付）

LNK2019:未解決の外部シンボルと LNK1120:外部参照 1 が未解決について

ヴァンパイア・ノーツ　攻略

大阪・泉南イオンで飛び降り自殺とみられる転落事件が発生：ネットで拡散された理由とは

メールディーラーで受信するアドレスを追加できますか？

Robocopy のエラー (戻り値) について

林要の結婚や経歴&評判とWikiプロフやLOVOT(ラボット)とグルーブエックス株価は

【極☆寒】「凍った髪」を競い合う『国際ヘア・フリージング・コンテスト』！寒〜い写真に身震いしつつ過ぎ行く冬にサヨナラだ!!

滋賀の部落（同和地区）一覧

【銃刀法違反】吉田総業組長代行恩田達志容疑者を再逮捕

和歌山県代表決まる　都道府県対抗中学バレー

大浦街道で重体事故

【世界大学ランキング】第１位にジュリアード音楽院とウィーン国立音大、日本勢は？

【対策済】「SKYSEA Client View」のアップデートに失敗する問題についてのお知らせ

Lahaina Lunaの歌詞を和訳しました

画像・写真】ららぽーと横浜で16歳男子高校生が転落死不審な動き→逃走し警備員に追いかけられ→柵越え飛び降り・12m転落窃盗・万引き？それとも盗撮？