簡単に言えば、日本語文章を与えてそれを単語ごとに分解する処理のことです。 ただ、文法を日本語のものに限定するとやりにくい点があったり、独自の文法や拡張に対応しやすいように、 本来の日本語のものとは一部異なる点もあります。
「茶筅」では、解析対象の文章の文法を自分で定義することもできるようです。
茶筅とは、おそらくもっとも有名な日本語を対象にした形態素解析エンジンです。 「奈良先端科学技術大学院」(NAIST)で開発されています。 というか、私があまり詳しくないのでこれ以外のエンジンは知りません(を)
ソースやプログラミング言語からの利用法が広く公開されているので、 形態素解析そのものを研究対象にしている人よりは、形態素解析を利用して何かをやろうとしている人にはもってこいだと思います。 以下に適当な解析例を。
形態素解析を利用して何かをやろうとしている人にはもってこいだと思います。 | |||||
形態素 | ケイタイソ | 形態素 | 名詞-一般 | ||
解析 | カイセキ | 解析 | 名詞-サ変接続 | ||
を | ヲ | を | 助詞-格助詞-一般 | ||
利用 | リヨウ | 利用 | 名詞-サ変接続 | ||
し | シ | する | 動詞-自立 | サ変・スル | 連用形 |
て | テ | て | 助詞-接続助詞 | ||
何 | ナニ | 何 | 名詞-代名詞-一般 | ||
か | カ | か | 助詞-副助詞/並立助詞/終助詞 | ||
を | ヲ | を | 助詞-格助詞-一般 | ||
やろ | ヤロ | やる | 動詞-自立 | 五段・ラ行 | 未然ウ接続 |
う | ウ | う | 助動詞 | 不変化型 | 基本形 |
と | ト | と | 助詞-格助詞-一般 | ||
し | シ | する | 動詞-自立 | サ変・スル | 連用形 |
て | テ | て | 助詞-接続助詞 | ||
いる | イル | いる | 動詞-非自立 | 一段 | 基本形 |
人 | ヒト | 人 | 名詞-一般 | ||
に | ニ | に | 助詞-格助詞-一般 | ||
は | ハ | は | 助詞-係助詞 | ||
もってこい | モッテコイ | もってこい | 名詞-一般 | ||
だ | ダ | だ | 助動詞 | 特殊・ダ | 基本形 |
と | ト | と | 助詞-格助詞-引用 | ||
思い | オモイ | 思う | 動詞-自立 | 五段・ワ行促音便 | 連用形 |
ます | マス | ます | 助動詞 | 特殊・マス | 基本形 |
。 | 。 | 。 | 記号-句点 | ||
EOS |
UNIX(Linux)では、オリジナルの茶筅にPerlからの呼び出し方法などが詳しくのってます。 その通りに従うことで、少なくとも私は問題なく利用できました。 (本体と辞書をそれぞれ別々に入れる必要がある、というPerlから利用する以前の問題でつまずきましたが、)
Windowsでの場合、未サポートながら「chasen.dll」とこれを利用するサンプルプログラム(C言語)がオリジナルのものに付属しているため、 これを利用すればC言語からはいけるようです(私は未確認) でもPerlからは無理っぽい。
そこで、「ComCha.dll」を利用します。 これは、Windows版Perlから茶筅を呼び出すためのラッパーで、これを用いればWindows上でPerlから茶筅が利用できるようになります。 でも注意点2つ。
C:\>ppm PPM>install Win32-API PPM>quit
サイトのトップへ
管理者にメール: rarul@rarul.com
リンクはご自由に。