言語の形態が違っても、統計的言語処理の内容は同じ

MS IMEの変換効率悪化は開発が中国にシフトしたのが原因? | スラド IT

IME が統計的言語処理ベースのものになっている以上、「IME を中国で開発したら変換精度が悪くなる」ってのも変な気がするんですけど。

統計的言語処理の仕方を、言語の形態によって変えるって話はあまり聞かないんで。たとえば音声認識なんかでは、屈折語の英語、膠着語の日本語、孤立語の中国語で違うアルゴリズムを使う(同じアルゴリズムで認識率が大幅に変わる)なんて話は聞かないです。統計的な処理をしてるということは、単語辞書も、手動で作るんではなくて、コーパスを解析して生成してるはずですし。統計的言語処理ベースになった時点で、IME を国ごとに別々に開発する意味はあまりないはず。

なので、MSKK の権力が下がってるのかなぁという部分は憂慮すべきですけど、「IME を中国で開発しちゃ駄目」って発想はさすがにナンセンス。ATOKの方が賢いっていうんなら、それはジャストシステムが優秀だからであって、MS IMEの開発拠点が国外に移ったことに起因はしない気が。

ちなみに、「中国に移す」=アウトソーシングなイメージがありますけど、MSに関していうなら、むしろ研究拠点としては中国の方が大きいんで。「人件費が安いから日本から出て行く」な発想ではなくて、普通に「大きい方で開発」ですんで。