LastUpdate, '03/01/14 とりあえず作ってみた。

目次


形態素解析について

簡単に言えば、日本語文章を与えてそれを単語ごとに分解する処理のことです。 ただ、文法を日本語のものに限定するとやりにくい点があったり、独自の文法や拡張に対応しやすいように、 本来の日本語のものとは一部異なる点もあります。

「茶筅」では、解析対象の文章の文法を自分で定義することもできるようです。


茶筅について

茶筅とは、おそらくもっとも有名な日本語を対象にした形態素解析エンジンです。 「奈良先端科学技術大学院」(NAIST)で開発されています。 というか、私があまり詳しくないのでこれ以外のエンジンは知りません(を)

ソースやプログラミング言語からの利用法が広く公開されているので、 形態素解析そのものを研究対象にしている人よりは、形態素解析を利用して何かをやろうとしている人にはもってこいだと思います。 以下に適当な解析例を。

形態素解析を利用して何かをやろうとしている人にはもってこいだと思います。
形態素ケイタイソ形態素名詞-一般
解析カイセキ解析名詞-サ変接続
助詞-格助詞-一般
利用リヨウ利用名詞-サ変接続
する動詞-自立サ変・スル連用形
助詞-接続助詞
ナニ名詞-代名詞-一般
助詞-副助詞/並立助詞/終助詞
助詞-格助詞-一般
やろヤロやる動詞-自立五段・ラ行未然ウ接続
助動詞不変化型基本形
助詞-格助詞-一般
する動詞-自立サ変・スル連用形
助詞-接続助詞
いるイルいる動詞-非自立一段基本形
ヒト名詞-一般
助詞-格助詞-一般
助詞-係助詞
もってこいモッテコイもってこい名詞-一般
助動詞特殊・ダ基本形
助詞-格助詞-引用
思いオモイ思う動詞-自立五段・ワ行促音便連用形
ますマスます助動詞特殊・マス基本形
記号-句点
EOS

Perlから呼び出してみる

UNIX(Linux)では、オリジナルの茶筅にPerlからの呼び出し方法などが詳しくのってます。 その通りに従うことで、少なくとも私は問題なく利用できました。 (本体と辞書をそれぞれ別々に入れる必要がある、というPerlから利用する以前の問題でつまずきましたが、)

Windowsでの場合、未サポートながら「chasen.dll」とこれを利用するサンプルプログラム(C言語)がオリジナルのものに付属しているため、 これを利用すればC言語からはいけるようです(私は未確認) でもPerlからは無理っぽい。

そこで、「ComCha.dll」を利用します。 これは、Windows版Perlから茶筅を呼び出すためのラッパーで、これを用いればWindows上でPerlから茶筅が利用できるようになります。 でも注意点2つ。


リンク集


サイトのトップへ
管理者にメール: rarul@rarul.com
リンクはご自由に。