Machine Learning /
Deep Learning

Machine Learning / Deep Learning

国立大助教から PKSHA へ。 State-of-the-artを達成することで見えてくる世界

国立大助教から PKSHA へ。 State-of-the-art を 達成することで見えてくる世界

Interview : YOTARO WATANABE

Share :

国立大助教を経て PKSHA へ

── これまでのキャリアについてお話しいただけますか。

キャリアの初めからお話しすると、大学院生当時は、自然言語の理解を機械学習ベースでおこなう研究に従事していました。意味理解の中でも、特に意味的構造を解析する技術ですね。

例えば、「鎌倉幕府の実質的な成立は1185年という説が支配的だ」という文があったときに、そこには、“鎌倉幕府”が、“1185年”に、“成立した”というイベントが含まれていますが、これは文中に出てくる単語の意味的な関係性を深く理解しなければ導くことができません。このような意味的な関係性を、7つの言語に対して単一の機械学習モジュールで解析するコンペティションに参加し、当時 state-of-the-art となる性能を複数の言語に関して実現できたことは私の研究者としてのキャリアの中で非常に重要な経験となりました。

その後、東北大学大学院の情報科学研究科にて助教を務めることになるのですが、ここでは研究の対象を広げて、文同士の意味的な関係性解析に関する研究や、情報抽出技術の実世界の問題への応用などに取り組みました。具体的には、国立情報学研究所が中心となった「ロボットは東大に入れるか」プロジェクトに参加したり、東日本大震災当時の実際のレポートデータから災害発生地点を自然言語処理的なアプローチで解析する技術を開発したりと、要素技術の研究から実社会への応用的な研究まで、幅広く関わっていました。

── その後、アカデミアから大手メーカーへと移っておられますね。

そうですね。人工知能分野の技術に対して社会的なニーズが高まっていることは大学在籍中にも感じており、自分の技術を活用できる機会があるのではないかと考え、思い切って国内大手メーカーへ転職しました。そこでは、まずテキスト分析技術のプラットフォーム開発プロジェクトに参画し、その後次世代技術を開発する R&D プロジェクトのリーダーを任されました。

研究もある程度進み形になってきたタイミングで、顧客課題をダイレクトに把握でき、R&D 方針の策定や実装の意思決定についてより身軽に動くことのできる場を求めて、PKSHA にジョインしました。

世界一の性能を実現した時、初めて理解できたこと

── 実装したアルゴリズムが state-of-the-art の性能を達成されたということでしたが、その際に何か新しく見えたものはあるでしょうか。

これができたがゆえに自分に起こった変化があります。

研究ではそもそも先が見えないこともあるのですが、この場合は精度というコンパスだけが手元にある状態でした。暗闇の中で、データと向き合い、アルゴリズムの振る舞いを捉え、課題を洗い出し、それらを一つずつ地道に潰していく。そうすると、突き抜けた時には気づけば世界トップの性能が実現できていた。この時に初めて、R&D における PDCA が何を意味するのか理解できたように思っています。

近年では機械学習ライブラリや深層学習フレームワークも複数現れ、エンジン自体をつくる閾値は下がってきています。そのため今後本当に差が出てくるのは、データに含まれる現象の解釈や、それに応じたモデル設計を理解できており、問題の解き筋に対する感覚が磨かれているかどうかではないでしょうか。

PKSHA では画像認識チームにも身をおいて R&D に取り組んでいますが、従来の専門とは違う領域で仕事ができているのは、こういった経験があったからです。

深層学習登場後もデータサイエンスの本質は変わらない

── 機械学習タスクを解くにあたり、考えていることは。

まずはタスクの性質を考慮します。例えば、多クラス分類ができれば十分なのか、構造を捉える必要のあるものなのか。アウトプットを出すために有用そうな特徴はデータから見えるか、といった分析をします。

分析・開発・評価のループを数多く回すことが重要なので、従来有用とわかっている特徴はまず組み込んでしまう、ある程度基本的なモデルを使うなどして、パフォーマンス測定までの初めの一周を極力早く実現できるようにしています。その後、解けている/解けていない問題の分析を進め、必要に応じてモデルの複雑化や特徴量の作成、もしくはデータの追加を検討します。

私自身は統計的機械学習の文脈でこの方法論を身につけてきましたが、深層学習の登場以降も基本的には変わらないスタンスで開発をおこなっています。

ディープニューラルネットワーク(DNN)はモデルとしての複雑度が圧倒的に高いので、内部で何が起こっているか把握するのが容易ではなくなったことは事実です。ただ、それだからこそ、データがモデル学習に与える影響を見極める観察眼の重要度が増し、モデルの構造や構成要素の役割について理解する能力が一層求められるようになったと感じています。自分自身でニューラルネットを設計するにあたっても、ネットワークの構造やパラメータが果たす役割にある程度「肌感覚」として理解が及んでいるかどうかは自覚的であるようにしていますね。

── 自然言語処理および画像認識の両チームにてR&Dを進める中で、深層学習の面白みや困難さがどのあたりにあると思われていますか。

まず、表現学習のようなことができるようになったのは面白いですよね。画像認識領域では歴史的にも工夫が積み重ねられてきたタスクですし、データそのものから特徴が学習できることは一つの成功だったと思います。その恩恵は自然言語処理でもあって、例えば、言語解析に必要な特徴の抽出を、陽にロジックを書いて抽出するのではなくモデルに任せてしまえるのは便利です。一部の職人芸が置き換えられるようになってきています。

マルチタスク学習への道筋が拓けてきていることにも着目しています。画像を認識してキャプションを生成するようなタスクが典型的ですが、DNN であればアーキテクチャの部分ごとにサブタスクを担当させることが自然にできるため、単一のモデルで複雑な課題に対応できる点は興味深いです。

一方でまだ解決できていない課題もあるとは思います。例えば「仮説を立てる」という推論問題。明示されてはいないけれど背後では起こっていたはずの現象について仮説を出すというものです。「私は昨日、XX といううどん屋に行きました。深みのある出汁が特徴的な、大変素晴らしいお店でした」という事例であれば、うどんを食べた、とか、お金を払った、といった事実は書かれていないものの、おそらく成立していたはずですよね。こういったことが背後で起きていそうだということを推測するのは、まだ難しいという印象です。

実務の世界で直面する問題は、難しくも興味深い

── アカデミアよりもむしろ企業で働くことにメリットがあるとすれば、それは何でしょうか。
 
前提として、ここまでお話ししてきたことは、アカデミアにいてできること、やるべきことを部分的にでもやり尽くしてきた、解き尽くしてきた経験に負う箇所が大きいです。繰り返しになりますが、一度何かを突き詰めると未経験の問題に対しても応用が効く状態になりますし、アカデミアで得た知識と課題解決の力は R&D 業務を進めるために必要不可欠です。

その上で振り返ってみると、アカデミアで解いている問題は、実世界に数多ある問題のうちごく一部にすぎないということです。実際に業務上直面した例でも、入力データにかなり欠損があるとか、撮影条件がばらついており理想的とはいえないデータを使って画像認識タスクを解かざるを得ないこともありました。でも、前提条件として避けられないことがあることを認識しておかないと、エンジンをデプロイまで持っていくことが難しくなります。

こうした、実世界で直面する課題は実に多様で、難しくも興味深いです。学術的にも先端的な位置づけとなる課題がビジネスの要求から生じてくることもしばしばあり、こういった面をリアルに経験する意味で、企業での R&D に従事することには一定の価値があります。また、自分の手がけたアルゴリズムやエンジンがいざデプロイされれば世の中の広い範囲で使われるようになる可能性も十分にあり、大変なやりがいを感じことができると思います。

渡邉 陽太郎

奈良先端科学技術大学院大学博士後期課程修了後、東北大学大学院情報科学研究科助教。その間、主に自然言語処理、特に言語の意味解析技術・推論技術の研究に従事。大手電機メーカーにてAI関連技術のプロジェクトリーダーを務めた後、PKSHA Technology参画。博士(工学)

応募する