今回は、テキストデータ分析の概要について書いていきたいと思います。
テキストデータ分析の方法は様々ありますが、一番ポピュラーなものを紹介します。
① 分かち書き+形態素解析
② word2vec
について解説します。
① 分かち書き+形態素解析
一言でいうと、フリーコメントをすべて集め、一つのコーパス(一つの文章)とみなし、「名詞」、「動詞」のように品詞レベルで分解することです。
例として、「これは、テストです。プロシードのブログ用です。」といった文章を分かち書き+形態素解析してみます。以下の画像のような結果になります。
(実際にこれらの分析を行う際には、なにかしらのプログラミングでの分析をおススメしています。私はPythonで行っています。余談ですが、今回はMecabではなくGinzaで形態素解析を行っています。)
品詞レベルで文章が分解されています。
次に、青空文庫から夏目漱石の「坊ちゃん」をダウンロードし、それを分かち書き+形態素解析してみます。
分かち書き+形態素解析し、名詞の頻出単語をランキング形式で抽出してみました。また、これらをワードクラウドという頻出語を頻度に比例する大きさで雲のように並べたもの作成しました。
坊ちゃんの主人公は、赤シャツなんじゃないかと思うレベルですね。笑
今回は名詞のみで頻出単語を抜き出しましたが、「名詞+動詞」のような形で抜き出すことも可能です。
実際のアンケート調査のフリーコメントでどういった声が一番多いのかを抽出することも可能です。
また、応対ログからコールリーズンを特定するときにも使用できます。
興味のある方は是非一度、Pythonなどで実装してみてください。
次回は、word2vecについて書きたいと思います。お楽しみに!