sakaikの日々雑感~日常編

sakaikの日々の雑記。食べ物、読み物、お出かけ(旅行)などなど

テキストデータの統計学入門

テキストデータの統計科学入門

テキストデータの統計科学入門


 いつ手に入れた本だったか記憶がおぼろげだが、おそらくオープンソースカンファレンス(OSC)に参加した際に会場の大学の書籍部で購入したものだった気がするこの本。

 長い間優先順位がやや下だったこともあって積まれたままだったのですが、このたび興味が上昇してようやく読むことができました。


 ひとことで言えばテキストマイニングの手法を紹介した本です。形態素解析mecabjugem 茶せんなどを使用し、その他のツールとして著者独自のツールやRなどを使っていますが、必ずしもこれらのツールを使用しなくても、テキストマイニングの考え方に触れることは十分できます。

 単語の長さやつながりのクセなどを元に著者同定を行う手法は、今回の私の関心とは別の話題ではありましたが非常に興味深いものでした。これを知っていればニセ手紙を書くときに自分だとバレないような文章を書けるぞ!などと、まったく利用機会のなさそうな知識を得られたことが、妙に嬉しかったりするのです(笑)。


 分析手法の解説に式が多く、それらをしっかり理解するところまでは今回じっくり読み込みませんでしたが、理論派の方にはこの式によってより理解が深まるのかなと思います。


 様々な手法が紹介されている中で、一番今の自分の目的で使いそうだと思ったのが「語のネットワーク分析」というのが、なんとも本書を生かし切っていないなぁと思うものの、多くの視点や手法に触れられたのは、本書を読んでよかったなと思いました。



.