地名情報処理システム-GeoNLP

GeoNLPは、文章を自動的に地図化する「地名情報処理システム」です。国立情報学研究所様と共同で開発を進めています。図の検索アプリケーションはトライアックス株式会社様が開発しています。

GeoNLP特徴

ウェブページやメール、ツイートなどの「文章」には、たくさんの地名や住所が含まれています。それらの地名や住所を抜き出し、地名辞書を参照して経度や緯度を付ければ、地図の上に文章をプロットすることができます。この「ジオタギング」と呼ばれる処理を実現すると、顧客管理、災害対応、行政サービス、観光サービスなど、幅広い分野で役に立ちます。

GeoNLPはジオタギングを実現するためのソフトウェアと、地名辞書、およびウェブアプリケーション等から手軽に使うためのウェブサービスをユーザ参加型で構築していくプラットフォームです。

技術

情報試作室は、ジオタギングを実現するソフトウェアの開発を主に担当しています。地名の抽出には形態素解析エンジンMeCabなど、広く利用されている自然言語処理技術を活用しています。また、住所の解析とジオコーディングは東京大学在籍時に開発したジオコーダーDAMSを利用しています。

ソフトウェア以外では、地名辞書の構造やウェブサービスの内容などについて、国立情報学研究所の北本朝展准教授と議論しながら進めています。

開発経緯

ジオタギング処理は、自然言語処理技術を一通り学べば「だいたい動くレベル」まで作るのは簡単なのですが、変則的な地名が抽出できないとか、市町村合併などによる地名の変化に合わせて辞書を維持し続けるのが困難といった問題があり、実用レベルに到達するまでにはまだ多くの課題が残っています。こういった課題をしっかり解決していこうということで、2010年に北本様より共同研究のお誘いを頂き、研究資金や技術アドバイスのご提供を受けながら開発を進めています。

また、一部の辞書は、東京大学空間情報科学研究センター様よりご発注頂き、その後一般公開させて頂いております。