こんにちは、Kanotです。先日(2026年1〜3月)、研究活動の中で、日本語も英語も話せないインドネシア人、ベトナム人、ミャンマー人にインタビューをする機会がありました。その際に、通訳に入ってもらうインタビューの前後で、ITツールを使った翻訳について色々と試してみましたので、備忘録も兼ねて記録を残しておきたいと思います。
注意:この記事は日常会話よりは、研究などでのインタビューを想定した内容になっています。また、翻訳技術は日々アップデートされていますので、あくまで2026年初頭の情報ということでご理解ください。
同時翻訳ツール
2026年1〜3月に行ったインタビュー時に、UDトーク、DeepL、ChatGPT、Gemini、Google翻訳の5つのツールを使った会話を試してみました。
まず、この中でUDトーク、DeepL、Gemini、Google翻訳はいずれも発話単位で翻訳するというものになっていました。つまり、ボタンを押して一つの言語を話し、その翻訳結果が表示される。次の人はまたボタンを押して違う言語を話し・・というものです。
これらの翻訳方法は悪くはないのですが、次に紹介するChatGPTの同時通話機能に比べると、いちいち会話を手動で切り替える必要があり、煩わしさを感じるものでした。(DeepLにも複数言語のリアルタイム翻訳がでたようですが、通常プランは対象外のようでした。)
一方、異彩を放っていたのはChatGPTでした。スマホのChatGPTアプリには通話モードがあります。ここで「今から日本語とインドネシア語で会話をするので、同時通訳してください」と声で伝えると、同時通訳モードに入ります。このセットアップだけで、あとは日本語とインドネシア語をかぶらないように話すだけで、スマホから同時通訳した言葉が流れます。
それなりのインターネット環境があることが前提ですが、タイムラグもそこまで気にならず、会話も十分成立し、生成AIの力に驚きました。これは、日常会話には十分使えるレベルと感じました。
結論、私たちが試した時点では、同時翻訳としてはChatGPTの音声通話機能が圧勝でした。
ただし、センシティブで正確性が求められるインタビューの場合は、次項で述べますが、まだまだ通訳の必要性はあるとも感じました。
通訳の必要性
これらのツールを使うことで、通訳は不要になるのでしょうか?通訳を通したインタビューと機械を通したインタビューの両方をしてみて感じた私たちの結論は、NOでした。
日常会話程度であれば、かなりの部分でツールで代替できそうです。しかし、難しいのは「細かい確認・聞き直し」「誤解を避ける」ことでした。これらは正式なインタビューでは重要です。
まず、「細かい確認」については、私が質問をして通訳さんが翻訳をし、回答者が答えます。その回答を私に伝える前に、通訳さんが「今のXXってYYってこと?」といった質問を頻繁にしていました。つまり、回答と質問がうまくフィットしていない時に通訳さんが微調整をかけてくれるということでした。
同じく、私の質問を通訳さんが訳して伝えた時に、参加者が部分的な確認をすることも多くありました。特にニュアンス的な部分で多かったと思います。私の質問文を超えて通訳さんがニュアンスを補足してくれていたとも感じました。これをツール経由で実施しようとすると、正確に訳すのが難しいため、多くの時間がかかってしまうなと感じました。
次に、「誤解を避ける」です。テーブルを囲んで、ChatGPTの同時通訳を使ってインドネシア人3人と日本人3人で会話をしていた時のことです。この中に、一人だけ日本語がわかるインドネシア人がいたのですが、彼が「今の翻訳は間違ってます。逆のことを言っています。」と指摘してくれました。確か文化差異を感じた経験の有無をシンプルなYes/Noではなく理由も添えて回答してくれた際だったと思います。
単語の訳し間違いなどは、会話が成立しなくなるのでお互い「ん?なんか変だ」と気づくことができるのですが、YesをNoと逆の回答を翻訳機がした際に、気づくのはなかなか困難で、誤解があるままで会話が進行してしまう可能性があります。このリスクは結構大きいなと思いました。
書き起こし&要約
次に、録音した複数言語による会話音声を書き起こすことを、複数のツールで試してみました。試してみたのは、ChatGPT、Plaud AI、NotebookLMです。
まず、同時通話機能で優秀だったChatGPTは書き起こし、要約ともにイマイチでした。会話の音声を与えても、言語の区別も綺麗にできず、中途半端な出力結果になっていました。
書き起こしに強かったのはPlaud AIです。さすがに会議議事録などに特化したサービスということもあり、日本語とインドネシア語が混ざった会話などでも、きちんと言語を分けて書き起こしをしてくれていました。通常何万円かかけて、または何時間もかけて書き起こしをしていたことを考えると、革命的な便利さでした。Plaud AIには要約機能もありますが、次のNotebookLMには劣りますが、許容範囲でした。
要約に強かったのはNotebookLMです。最初に音声データから書き起こしをさせてみたのですが、イマイチな出力で、これは使えなそうだという結論でした。一方、インタビュー音声の要約をさせてみたところ、綺麗にまとまっていました。書き起こしが不十分なのになぜか要約はできている、この仕組みはよくわからないのですが、おそらく別々のロジックを使って生成しているのではないかと思います。Plaud AIとの違いは、NotebookLMの方が要約に細かい指示を出せるので、分量やポイント含めて微調整しやすかったです。
| ツール | 書き起こし | 要約 |
|---|---|---|
| ChatGPT | × | △ |
| Plaud AI | ○ | △ |
| NotebookLM | △ | ○ |
守秘義務と効率性のジレンマ
上記の通り、生成AIを使った書き起こしや要約は非常に便利なのですが、録音データを闇雲にAIに突っ込むというのはリスクが大きいというのは忘れてはいけません。
一般的に「タダほど怖いものはない」ということで、無料で使えるAIは、無料で使える代わりにデータを学習に利用される可能性が高いです。例えばChatGPTでは有料プランの場合は「データを学習に使う」ことをオフにするオプションがあります。
Plaud AIは元々有料サービスなので、学習には使われないと思われます。また、NotebookLMも基本的に与えたデータだけで分析するというツールなので、データの学習利用は考えにくいのかなとは思います。
ただし、データを学習に使わないことと、データが飛ばないことはイコールではありません。現在のほとんどの生成AIはクラウド側で処理をしていますので、学習には使われませんが、クラウドサーバに送信されることは避けられません。これが処理終了時に削除されるのか一定期間残るのかはサービスごとに異なると思われます。
この辺りは、企業・大学・個人の守秘義務への考え方やリスクの取り方によって変わってくるのかなと思います。簡単にまとめてみると、以下のようになります。
| ツール | 学習利用 | データの位置づけ | リスク感 |
|---|---|---|---|
| ChatGPT | 条件付きであり | 汎用AI | 中(設定、プラン次第) |
| NotebookLM | 基本なし | ユーザ専用DB | 低 |
| Plaud AI | 基本なし | 録音→クラウド処理 | 中 |
言語間の格差
ここまではツールごとの機能差について説明してきましたが、翻訳の言語間の差も見られました。
具体的には、ChatGPTの通話機能を使って同時通訳してもらった際の、インドネシア語とミャンマー語の精度の差でした。ChatGPTでインドネシア人と話をして「結構いける」と考えていた後に、ミャンマー人と話をしてみたのですが、どうもうまく通じませんでした。
英語とスペイン語など言語的に似ているものの翻訳精度が上がるというのはよく言われる話ですが、今回は日本語<->インドネシア語、日本語<->ミャンマー語なので、どちらも近くはありません。なぜこのような差が生まれてしまったのでしょうか?
おそらくですが、学習データの差が一番の要因かなと考えます。インドネシア語はミャンマー語と比べて通話者の母数自体が多いことに加え、昨今のミャンマーの外交問題もあり、あまりミャンマー語での言語データの学習が進んでいないのではと考えます。
本当はマイナーな言語ほどこういったツールが役立つのですが、全く逆のことが起きていて、そこは大きなジレンマだなと感じました。
終わりに
この記事を読んでいただき、一つの疑問を抱えたままの方、いるのではないでしょうか?
ん??iPhoneとAirPods Proの同時通訳機能はどうした?あれが本命だろう!・・・と。
その点に関しては、私がiPhoneとAirPods Proの両方を持っていたので、ぜひ試したかったのですが、「AirPods Proは第2世代以降、iPhoneは 15 Pro以降」という条件があるようで、これを満たせず断念しました。
そのうち、こちらも試してみたいと思います。



コメント