日記:自分でつくった短歌を解析する

1.はじめに

短歌を作り始めてそろそろ1年になるので短歌を形態素解析して、頻出する単語*1とかを計量しました。

対象は2017年12月22日~2018年12月22日までにツイッターでつぶやいた200首です。

解析と仰々しいことを書いていますが、自然言語処理・統計系のほにゃほにゃに詳しくないので、本当に数を出しただけです。

(特定の表現の多寡を考えるためには他のデータと比較することが大切ですが、特にそういうこともしていません)

 

 

 

2.手順

(1) 短歌をテキストファイルにまとめる。この際、短歌1つ1つの境界として「@」を採用しました。短歌の中で「@」使ってなかったので。

(2) Web茶まめにテキストファイルを突っ込んで形態素解析する。

(3) エクセルに出力してなんやかんやいじって見たい項目を見る。(ピボットテーブルとか使う)

以上! もともと短歌を一つのデータにまとめていなかったので、テキストファイルにコピペする作業が一番大変でした。

 

3.頻出語の順位

まず、全体の語の上位を見てみます。全体で、3415件の語がありました。だいたい1首あたり17語程度ということになります。以降、表はすべてエクセルからのコピペ。だいたい上位だけで、総計は載せていません。

表1

f:id:siy_lang:20181223002818p:plain

総合順位

 

前述のとおり、@は短歌どうしの境界に使っている記号なのであまり意味はありません*2

「の:159」や「を:111」が多いのは当然っぽいですね。「て:99」と「た:51」の差も、接続表現として繰り返し出てこられるものと、文末にくる「た」の差と捉えれば当然かもしれません。これだとすこしわかりにくいので、品詞別の順位を出してみましょう。

ちなみに、各品詞ごとの順位はこういう感じです。

表2

f:id:siy_lang:20181223005510p:plain

しゆ短歌品詞順位

 

3.1 名詞

名詞*3の上位は以下の通り。

表3

f:id:siy_lang:20181222165156p:plain

しゆ短歌名詞順位

「事」が上位にいるのは普通なのであまり意味がなさそうです。数字とかも。

まず、「夜:16」、「朝:12」が目立ちますね。同じく時間帯をあらわす「昼」は1件でした。そもそもツイッター上で最初につくった歌からして夜だったり。

眠れない夜などないよ 眠れないぼくがひとりでここにいるだけ

夜と朝がセットで出てくる歌もあります。

夜ばかり集めてこころ満たしてもただ朝焼けが消し溶かす夢

眠れずに色々考える夜と、その延長線上にある境界としての朝は、一つのテーマなのかもしれません。夜の歌ばかり作っていることを踏まえて、「夜ばかり集めて~」とその虚しさを語っていることも面白いかもしれないです。

 

また、代名詞がやけに多く、「僕:13」「貴方:11」「君:11」「私:11」です。

(私は何故か2つに分かれており、「私-代名詞」が6件で、「私」が5件でした)

同じ歌に別の代名詞が出現することも多々あるでしょうが、200首の中で46回出てきているというのは結構な量です。

わたしとかぼくとかきみとかあなたとか そんな言葉で愛を歌うな

こんな歌をつくっている割には多い。むしろ、安易に使ってしまうからこそ、こんな歌をつくったのかもしれません。ここで使っている「愛」も10件あるので結構使ってます。

 

季節は「夏:7」「冬:7」「春:6」がだいたい同じくらい。ちなみに秋は3件。そもそも季節を捉えようとするときに「夏」とかそのまま書いちゃうのがカッコ悪い気がするので、これの数がそのままどの季節がどうか、ということにはつながらないですが。実際、秋についてはそういうことを気にしていたようです。

秋という言葉を避けるためだけに もみじや虫に登場願う

あと、「雨:6」もそこそこ多いですが、下のような歌をつくっています。

雨粒を涙に見立てる傲慢さだけがあなたの取り柄なんでしょ?

代名詞と同じで、自己の短歌に対する批判的な面があります。自分の使いがちな表現を薄々察して、それに対していろいろ考えるというのも一つの特徴かもしれません。

 

3.2 動詞

動詞の上位は以下の通り。

表4

f:id:siy_lang:20181222165203p:plain

しゆ短歌動詞順位

「為る(する):32」「居る(いる):20」が多いのは当然として、「言う:20」はどうなんでしょう。名詞で「言葉:8」だったのも踏まえると、意味ありげかもしれない。

 

「眠る:10」も「夜:16」「朝:12」と関係してそうです。なんか全体的な傾向があるようなないような。

眠れない眠り姫です。救われる予定もないし明日はバイト。

ちなみに「来る:6」の主語は朝が3件で、明日が1件。一見時間帯とは関係のない動詞ですが、明日が来ること、朝がくることに対して使われている例がほとんど。

 

「生きる:6」「救う:5」「死ぬ:5」のあたりもなんか意味深ですね。まぁすぐ死とか生につなげてしまうのは短絡的でネガティブな感じがしますが、そういう自分を割と明るめに茶化した歌とかもあったり。

 「死にたっ」って言うけど 逆から読んじゃえば「たにし」なんだし まだ頑張るし

 

どうでもいいけど、「待つ:4」「泣く:4」「ごまかす:4」の並びがエモい。

 

3.4 その他

終助詞も面白かったので見てみましょう。

表5

f:id:siy_lang:20181222165542p:plain

しゆ短歌終助詞順位


終助詞については、「よ:23」が一位。「か:10」が二位。「よ」と同じくらいオーソドックスな終助詞である「ね:7」はすこし少なめです。

ここら辺は結構人によって差が出そうです。「よ」には以下のような終助詞とは言えない呼格的なものがあったので、終助詞に限ると「よ:18」になりますが、それでも「ね」に比べて「よ」の方が多いです。

ひと切れの祈りよ届け冥王星 アンテナのない場所だからこそ

次の例は、命令形のあとという「よ」しか出現できないポイントに「よ」が出てきている例。

 何度でも無価値な歌を吐き出せよ 勝手に生きて 生き続けろよ

一方、下の例は、「よ」と「ね」を入れ替えられる例で、こういうところでどっちを選ぶかには差がでそう。

「さようなら。あなたが全部正しいよ。でも間違った私も死ねない」

とか、

朝が来る。この世の終わりがここにある心地になって 、夢を探すよ。

「よ」と「ね」の違いとして、「今日寒い」「うん、寒いね」はよくても、「今日寒い」「??うん、寒いよ」はちょっと変な表現で、特別な文脈が必要そうです。しかしながら、「今日寒い」に「えー、寒くないよ」という場合は「よ」の方が自然です。

他には、傘を持っていかずに出かけようとしている人に声をかけるとき、「今日は雨だね」より、「今日は雨だよ」がなんとなく自然です。

そういう感じで、相手との一致をみる場合には「ね」が使われやすく、相手と対立する場合には「よ」が使われやすいみたいなことがあります。

「さようなら~」の方はいかにも対立という感じですが、「朝が来る。~」の方は、そもそも相手が意識されていないがゆえに「よ」が出てきているのかもしれません。

(もちろん、終助詞というのは厄介な奴なのでこんなに簡単な分布になってるわけではないのですが)

他の人の短歌における量がどんな感じになっているのか気になりますね。

 

他には係助詞・副助詞なんかも面白かったです。

表6

f:id:siy_lang:20181222165639p:plain

しゆ短歌係助詞・副助詞順位

係助詞・副助詞だと、「は:79」「も:54」が多いのはあまり不思議ではないのですが、「だけ:35」はちょっと面白いかもしれません。人と比べないとわかりませんが、なんとなく多そう。

いつだって不足している常備薬だけを頼りに春を待ってる

「だけ」は何かを限定する表現ですが、ここではある種の誇張に使われているような気がします。

真夏日の定義は簡単。あの頃が懐かしくなる感傷だけで。

別にそれだけではないはずなのに、わざと「だけ」と書くことで、気持ちを強くしている感じ? よくわからないですが。

きっとそう、手をつなぎたいだけの恋だった。だからあなたの名前を知らない。

まぁ安易な感じもします。

 

4.語の連続の順位

こちらはあまり面白くなかったのですが、上に出てくるような語が、どのようなまとまりとして出現しているのかも見てみました。実感がわかない方も、表を見ればなんとなくわかると思います。

例えば、@は短歌の境界に与えた記号なので、「。@」という組み合わせであれば、「。」で終わっている短歌が17件あるということがわかります。

他にも上で「言う:20」のうち「言って」の形で出現するのが9件あるとか、そういう2つ以上の表現の組み合わせの順位をここでは見ています。

まず、2つの語の組み合わせです*4

f:id:siy_lang:20181223002607p:plain

2つの語の連続

そもそも量が少ないですし、同じ表現を使いまわしたくない短歌なので、組み合わせの順位はあまり面白いデータがありませんね。「眠れ」から始まる短歌が5つ、「さよなら」から始まる短歌が5つというのは少し面白いでしょうか。

一応、3つの語の連続の順位も出しましたが、複数回出現するものはほとんどありませんでした。

f:id:siy_lang:20181223002718p:plain

3つの語の連続

5.おわりに

正直なところ、少ない文字数で何かを表現する短歌を形態素解析するよりは、小説を形態素解析した方が面白そうです。全体として傾向があったとして、自己分析にはなっても、個々の短歌自体の表現価値にはあまり関係がありません。

しかしながら、私のような素人短歌詠み(?)としては、「こういう表現使いがちなのかー」みたいなことを考えるきっかけにはなりました。逆にあまり使ってない表現を使ってみようとか、こんな歌もつくったっけとかいろいろなきっかけにはなる。

名詞をもう少し分類して、例えば「外来語」であったり、「食べもの」「植物」みたいな下位分類をつくって計量すれば見えてくるものもあるかもしれませんが、割に合わなさそうなのでやりません。

来年は自作の小説か、もしくはこのブログの解析でもやってみたいですね。

小説だと、最後に出した「語の連続」という観点もかなり有効なものになると思います。自分がやりがちな言い回し、みたいなものがわかるかも。

 

*1:形態素解析における「形態素」をこの記事では「単語もしくは語」と表現しています。

*2:@[短歌]@[短歌]@といった感じで@を置いているので、短歌の数+1が@の数になっています。

*3:表2で代名詞として区別されているものも含む

*4:表中の2gramという表記は、2つの語の連続であることを指す。これは本来、形態素ではなく文字を基準に計量を行うn-gramモデルを参考にしている