ここではプロジェクトの研究トピックを簡単に説明します。翻訳支援システムの構成やイメージは、システムをご覧下さい。

翻訳プロセス

翻訳者は翻訳プロセスをいわば身体化しています。したがって、自分たちがやっていることを意識化して語れない・語らないことも少なからずあります。あるいは、あまりに当然すぎて語る必要を感じない暗黙の知識もまた、多数あるようです。さらに、翻訳者それぞれに「スタイル」がありますから、一概に一つの翻訳プロセスを語ることもできません。

本プロジェクトでは、研究代表者影浦(翻訳者でもあります)の認識にもとづいて翻訳プロセスを捕らえるところから枠組みを定めています。以下では、基本的な認識をキャッチフレーズ風にリストします(「どうして共通部分を取らないのか?」についても以下でお答えすることになります。

  1. 翻訳は、メディア的・社会的なプロセスである。
  2. これまで、翻訳をめぐる技術的議論の少なからぬものが、この点を当然の前提として、言語的・認知的なプロセスに重点を置いてきました(例えば安西徹雄『英文翻訳術』ちくま学芸文庫など)。一方、自然言語処理の研究では、メディア的・社会的なプロセスを置き去りにしたまま、言語の計算として翻訳をとらえる傾向にありました。本プロジェクトでは、明示的に翻訳をメディア的・社会的なプロセスととらえます。

  3. 翻訳者は、プロであり生産者である。
  4. 本プロジェクトが対象とするのは「ボランティア翻訳者」ですから、お金をもらっているという意味でのプロではありません(ボランティアでオンラインの翻訳活動に関わるプロも少なくありませんが)。翻訳支援を考えるとき、ときに私たちは、翻訳者をシステムの「ユーザ」ととらえがちです。もちろんそうなのですが、翻訳者がシステムを使うのは、翻訳を生産する活動の一部においてであって、そこから切り離された消費者ではありません。

  5. 翻訳者は、意志決定を行う。
  6. 2.と強く関係していますが、翻訳支援システムの設計において、判断は翻訳者が行い、システムはそれを支援する位置にあります。当然のことですが、自然言語処理研究の一部で、一つないしは複数の正解があらかじめ定まったものとの前提で、それを出力するシステムのパフォーマンスが問われている状況を考えると、それに流されないためにも、この点を強調しておくのは案外大切です。「真の正解」は統整的理念においてあり、個々の翻訳者はそれぞれにそれを求めて翻訳を構成し、その途上で意志決定を行う(たとえば『ライ麦畑で捕まえて』と『キャッチャー・イン・ザ・ライ』の間で正解を問うのは不毛なことです)。機械に翻訳ができないのは、今のところ機械に統整的理念が持てないからだ、ということもできるでしょう。多数の翻訳者の翻訳プロセスを観察して共通点や和集合を求め、それに基づき「標準」を設定してそれに応じたシステム開発を行うことが誤っているのは、統整的理念を構成的なレベルに矮小化する過誤を犯しているからで、ケトレの亡霊が跋扈しているように思えます。

  7. 個人型ボランティア翻訳者は、絶対的な時間の節約よりも主観的な労力の節約を求める。
  8. カナダのTransTypeは「時は金なり」の職業翻訳者を想定しています。一方、椎茸プロジェクトが対象とする翻訳者は「とにかく主観的な面倒さを減らしたい」と考えるタイプの翻訳者です。

これらの観点を定めたとき、翻訳支援システムの技術要素にどう反映させるべきか、それを考えるのが翻訳プロセスの研究です。優れた翻訳支援システムが多数ある中、椎茸プロジェクトの独自性を理論的に支える部分です。

情報探索行動の観点から、翻訳者の情報探索は大きく三つに類型化されます。第一は、辞書や百科事典、専門用語辞典など、確立したレファレンス・ツールの参照。第二は、図書館やWebなどの参照。そして第三は、自分が翻訳している文書が属している文書集合の参照です。大切なのは、これらの三種類の参照レベルは、どれかがあればよいというのではなく、どれもそれぞれ異なった意味を持つ基本的なものだという点です。

ここから、本プロジェクトでは、単にコーパスから対訳情報を得る(これは二番目のレベルに属します)メカニズムと、レファレンス情報源を編集し構築する(最初のレベルを支えるものです)メカニズムとを区別し、また、コーパスの活用と、関連文書の参照(アーカイブの参照と呼びます)とを区別します。

研究として勧めているわけではありませんが、翻訳対象ユニットと翻訳者・翻訳コミュニティとの関係から、オンライン翻訳者の類型は基本的に2つに分かれます。

  1. 個人翻訳型。ある翻訳対象ユニット(一つの記事、一冊の本など)を一人ないしは相互によく知った少数の翻訳者が訳す場合。
  2. プロジェクト/コミュニティ翻訳型。ある翻訳対象ユニットの部分部分を翻訳プロジェクトに属する翻訳者が分担する場合。MozillaやWikiの多言語化、ゲーム・ソフトの多言語化などがこれに相当します。

人間の側の組織化を考えると、別の類型を認めることができます。たとえば、Global Voicesは翻訳ユニットと翻訳者の関係では個人翻訳型ですが、翻訳ユニット集合をまとめるレベルで人間と発表媒体とが組織化されています。

今のところ、椎茸プロジェクトでは、プロジェクトとしては個人翻訳型を想定した開発モジュールを中心にしています。プロジェクト型への対応はYoucef Bey氏が担当しています。

文献
影浦峡. 「人間の翻訳におけるコーパスの位置づけ」言語処理学会第12回年次大会論文集. p. 452-455, 2006.
影浦峡・阿辺川武. 「翻訳者の類型と翻訳作業の諸相」言語処理学会第13回年次大会論文集. p. 392-395, 2007.

このページの上へ

レファレンス・ツール構築

もちろん翻訳者によって違いはありますが、レファレンス・ツールに対する(が提供する)情報の参照単位として、私たちは、一般語、熟語・慣用句、固有名(人名・地名・組織名)、専門語、連語、引用句を想定しています。また、参照する情報種別としては、原言語の意味、事実情報、対象言語での表現を、レファレンス情報源としては辞書/事典と図書館(Webもこれに含まれます)に区別しています。さらに、これに加えて翻訳対象テキストが所属するテキスト集合への参照があります。

このうち、レファレンス・ツール構築という観点から研究に取り組んでいるのは、固有名と専門語です。というのも、一般語と熟語・慣用句については既存の辞書がかなり質の良い情報を提供しており、一方で連語や引用句はむしろ辞書の参照を飛び越して図書館・Webの参照メカニズムを高度化するというかたちで対応すべきと考えているからです。その間で、固有名と専門語については辞書・事典形式のレファレンス・ツールが存在し、利用され、また求められていながら、新語や新名称が多く発生するため既存のツールでは追いつけない、という状況にあります。

そこで、固有名のうち人名や地名の翻字で対応できるものを対象に人名辞書・地名辞書を強化する舞茸システムの開発、また、固有名でも組織名や専門語のように新たに作られるものの多くが複合語で語構成要素レベルでの処理が必要となるものに対処するエリンギ・システムの開発を進めています。

「テキストからの・・・抽出」という抽出論にとどまるのではなく、レファレンス・ツールの編集論に発展させることが、技術的・理論的な課題です。数年前、言語処理学会の大会で私が「語彙」部門の座長をしていたとき、出席していた長尾真先生がセッションの発表を聞いて、「ここまでっきたら本当に辞書を作って成果を示す段階だね」と言っていました。

文献
影浦峡・佐藤理史・竹内孔一・宇津呂武仁・辻慶太・小山照夫. 「翻訳者支援のための言語レファレンス・ツール高度化方針」言語処理学会第12回年次大会論文集. p. 707-710, 2006.
木田充洋・外池昌嗣・宇津呂武仁・佐藤理史. 「ウェブを利用した専門用語の分野判定」電子情報通信学会論文誌D, Vol. J89-D, No. 11, p. 2470-2482, 2006.
Masatsugu Tonoike, Mitsuhiro Kida, Toshihiro Takagi, Yasuhiro Sasaki, Takehito Utsuro and S. Sato. "A comparative study on compositional translation estimation using a domain/topic-specific corpus collected from the Web," Proceedings of the 2nd International Workshop on Web as Corpus, EACL-2006 Workshop, p. 11-18, 2006.
辻慶太・佐藤理史・影浦峡. 「対訳人名検索における翻字・サーチエンジンの有効性評価」言語処理学会第11回年次大会論文集. p. 352-355, 2005.

このページの上へ

情報参照の高度化

レファレンス・ツールが充実していても、参照が面倒、という場合があります。参照のユニットが複合単位で、テキスト中には異形として現れるようなものです。典型的には、熟語・慣用句。それに専門語が加わります。

レファレンス・ツール構築」で述べたように、一般語と熟語・慣用句については翻訳者はかなりの程度、既存の高品質辞書に満足しています。ところが、このうち熟語・慣用句については参照が面倒と誰もが感じています。

そこで、テキスト中に出現する、異形を含む熟語や慣用句に、標準形で登録されている辞書の見出しを自動的にマッチングさせるメカニズムを開発しています。挿入(by hook or by crook → by hook, by genius, by hard work, or by crook)や置換(head screwed on right → head screwed on wrong)による異形に対応する柔軟なイディオム検索システムのプロトタイプは完成し、現在、性能仕様も含めて改善・高度化を行っています。

また、専門語についても異形の使われ方を文脈中から探しチェックすることが求められています。「構文解析」は、動詞的に使うとき、「構文を解析する」にすべきなのか「構文解析をする」にすべきか「構文解析する」にすべきか。逆説的ですが、分野専門家なら自分の好みで判断してもよいかも知れませんが、分野専門家ではない翻訳者には、標準的な用法をきちんと把握することが求められます。Web上の用例を異形を含め、参照するシステムも開発中です。

言語処理の技術と理論の関係で考えると、これらのメカニズムは、用例ベース翻訳における類似用例マッチングに似た部分があります。単純化すると、用例ベース翻訳の類似用例探索は、「似た例」をどちらかというと構造主導で探すわけですが、本プロジェクトでは、そこで想定されている「似た例」よりもはるかに具体的に語彙化されたレベルで情報参照を定義しています。例えば、Martin Kayは英仏翻訳で「The man looked at the girl with the telescope」とその翻訳例を、「He looked at the girl with penetrating eyes」の翻訳に用いることはできないと正しく論じています(Kay, M. 1997. "The proper place of men and machines in language translation," Machine Translation, 12(1), p. 3-23.)。では、構造と語彙化された表現は、どこで出会うのか。この問題は、いわゆる言語学では研究対象になりませんが、言語実務的観点から言語をとらえ、それを言語処理で実現しようとしたときには、極めて重要かつ興味深い問題だと思います。

文献
Kyo Kageura and Miwa Toyoshima. "Analysis of idiom variations in English for the enhanced automatic look-up of idiom entries in dictionaries," Proceedings of the 12th Euralex International Congress, p. 989-995, 2006.
Koichi Takeuchi, Takashi Kanehila, Kazuki Hilao, Takeshi Abekawa and Kyo Kageura. "Flexible automatic look-up of English idiom entries in dictionaries," Machine Translation Summit XI Proceedings, p. 451-458, 2007.

このページの上へ

コミュニティ構築

オンライン翻訳者は、個人で翻訳している場合でも、関連する活動をやっている翻訳者の存在をそれなりに知っており、ゆるやかなネットワークをかたちづくっていることが少なくありません。これを一歩進め、相互に調整のオーバーヘッドの必要な「コミュニティ」を構築するのではなく、機能的な意味での「コミュニティ」を構築する手助けをするシステムを実現することも、本プロジェクトの重要な目標の一つです。

そのために大切な位置づけにあるメカニズムが、関連既訳文書のリサイクルです。これは、各翻訳者が自分が翻訳対象としている領域のキーワードあるいは関連する翻訳活動を行っている翻訳者が翻訳文書を発表するウェブサイトのURLを登録しておくと、バックグランドでシステムが既訳文書の原文と訳文を収集し、単語から句まで、様々な単位での情報参照と再利用を可能にするものです。2007年秋現在、文書レベルでのリサイクル・システムは出来ており、その改善と、言語単位のリサイクルの開発を進めています。

世にある情報の数に対して関連する翻訳者は絶対的に少ないから、実質的にはあまり意味がないのでは? という疑問が起こるかも知れません。実は、それにもかかわらず、翻訳活動は言語の操作ではなくメディアの操作であり、翻訳者は情報生産者であるがゆえに、関連既訳文書のリサイクルは翻訳において決定的に大切です。

翻訳がメディア的プロセスであるというのは、翻訳されたテキストは必ずこれまでに存在するテキストの部分集合の中に位置づけられ、その中で読まれ、消費される、ということです。したがって、一般的な情報参照とは別に、翻訳文書が属する文書集合を常に翻訳者は意識し、その文書集合における表現などの癖を把握しておく必要があります。そしてこれは、自分が生産する情報の位置づけを考えるという、生産者の立場から生じる視点です。

コミュニティ構築については、訳してねっとが興味深いコンセプトを打ち出しています。「訳してねっと」がシステム主導型であるのに対し、本プロジェクトは翻訳者主導型と位置づけることができます。「訳してねっと」がシステムの周りにコミュニティを作るのに対し、本プロジェクトでは個々の翻訳者の周りにコミュニティが出来ているように見える機能を実現することを目標としています。

コミュニティ構築ではありませんが、MozillaやWikiの多言語化など、プロジェクト/コミュニティ型の翻訳を円滑に進めるために、BEYTrans(Better Environment for Your Translation)の開発も並行して進めています。

文献
品川哲也・森辰則・影浦峡. 「オンライン対訳文書からのテキスト領域抽出とアラインメント」言語処理学会第12回年次大会論文集. p. 520-523, 2006.
Youcef Bey, Kyo Kageura and Christian Boitet. " Data management in QRLex, an online aid system for volunteer translators," International Journal of Computational Linguistics and Chinese Language Processing. 11(4), p. 349-376, 2006.
Kyo Kageura, Takeshi Abekawa and Satoshi Sekine. "QRselect: A user-driven system for collecting translation document pairs from the web," Proceedings of the 10th International Conference on Asian Digital Libraries. 2007.

このページの上へ

インタフェース

個人型システムにおけるインタフェース(QRedit)の問題は、多種豊富なレファレンス情報源の参照を最適化するためにはどうすればよいか、これを、レファレンス情報源の類別、翻訳者の情報参照行動、計算機環境の制限の中で、解決することです。ユーザは賢い、マネージメントに要する機能は最小限にする、マウス・キーボードのアクションや切り替えを最小限に抑える、翻訳者の「気づき」を促すといった観点を整理し、インタフェース設計を行なっています。

一方、プロジェクト/コミュニティ型システム(BEYTrans)では、個々人の翻訳作業の最適化ではなく、全体としての翻訳ユニットの最適化を考慮し、むしろマネージメントに要する機能を前面に押し出すことになっています。

文献
Takeshi Abekawa and Kyo Kageura. "A translation aid system with a stratified lookup interface," Proceedings of the 45th Annual Meeting of the Association for Computational Linguistics Demos and Poster Sessions. p. 5-8, 2007.
Takeshi Abekawa and Kyo Kageura. "QRedit: An integrated editor system to support online volunteer translators," Digital Humanities 2007. p. 3-5, 2007.
Youcef Bey, Kyo Kageura, and Christian Boitet. "BEYTrans: A free online collaborative Wiki-based CAT environment dedicated for online translation," Proceedings of the 21st Pacific Asia Conference on Language, Information and Computation. 2007.

このページの上へ

初心者翻訳者支援

ボランティア翻訳をやっていると、手伝いたいという人は少なからずいるのですが、そのうち大部分は、途中でやっぱりやめてしまいます。様々な理由はあるのでしょうが、個々人が自分のペースでやらなくてはならないと、初心者にとっては、技術的な難しさもあって、困難なようです。

こうした状況を改善するため、椎茸プロジェクトでは、スピンオフ・プロジェクトとして、人間の翻訳者による下訳と完成訳をと分析し、初心者翻訳者を支援するための手法を研究し始めました。カナダでも同様のプロジェクトを大規模に進める計画があるとのこと(まだ実現するには至ってないようですが)。

文献

Abekawa, T. and Kageura, K. "What prompts translators to modify draft translations? An analysis of basic modification patterns for use in the automatic notification of awkwardly translated text," Proceedings of the 3rd International Joint Conference on Natural Language Processing. to appear, 2008.
阿辺川武, 影浦峡. 「下訳と修正訳を用いた訳文修正パターンの発見」言語>処理学会第13回年次大会論文集. p. 919-922, 2007.

このページの上へ