LLM・生成AI

RLHFとは？

読み: あーるえるえいちえふ英語: Reinforcement Learning from Human Feedback更新日: 2026-06-23

人間の評価やフィードバックを使い、モデルの出力を望ましい方向へ調整する手法です。

試験で問われるポイント

強化学習と人間評価を組み合わせた考え方です。
安全性や有用性の向上に関係します。
完全な正確性を保証する仕組みではありません。

具体例

ユーザーにとって有用で安全な応答を選好するようにモデルを調整します。

よくある誤解

RLHFで誤回答が完全になくなると考える。
人間が毎回リアルタイムで回答を書いていると考える。

対応試験

生成AIパスポートG検定

関連する表記: RLHF / 人間のフィードバック / Reinforcement Learning from Human Feedback

関連問題で復習

AWS AI Practitioner基盤モデルの活用

RLHFの説明として最も適切なものはどれか。

G検定ディープラーニングの応用例

「RLHF（Reinforcement Learning from Human Feedback）」の説明として、最も適切なものはどれか。

生成AIパスポートLLM・テキスト生成AI

ChatGPTが人間の意図に沿った回答をするよう調整された手法「RLHF」とは何の略か。

生成AIパスポートLLM・テキスト生成AI

RLHFの報酬モデルを必要とせず、人間の好みデータから直接ポリシーを最適化する手法を何と呼ぶか。

生成AIパスポートLLM・テキスト生成AI

ChatGPTの基盤となった「InstructGPT」の特徴はどれか。

生成AIパスポートLLM・テキスト生成AI

AIの出力を人間の価値観や意図に沿わせるプロセスを何と呼ぶか。

生成AIパスポートLLM・テキスト生成AI

Anthropic社が提唱した、AIに原則（憲法）を与えて自己評価・改善させる手法を何と呼ぶか。

生成AIパスポートLLM・テキスト生成AI

質問と期待される回答のペアなど、ラベル付きデータを使ってモデルを教師あり学習でファインチューニングする手法を何と呼ぶか。

関連用語

ハルシネーション

生成AIが、もっともらしいが事実と異なる内容を出力する現象です。

責任あるAI

AIを公平、安全、透明、説明可能に使い、社会的な影響に配慮する考え方です。

強化学習

エージェントが環境で行動し、得られる報酬を最大化するように学習する方法です。

FujiCertの用語解説は、各試験の公式問題ではなく、学習者が問題演習でつまずきやすい観点を整理した非公式の学習支援コンテンツです。