Gaaaon
PR.ready_
Difyの使い方(メモリ―機能と会話変数とは)
AI/Tech

Difyの使い方(メモリ―機能と会話変数とは)

Difyのメモリ機能と新しい会話変数の使い方を解説。チャットフロー専用のメモリ機能はウインドウサイズで会話数を指定可能、Ver.0.7.0で追加された会話変数と変数アサインにより、音声対話やヒアリング型アプリ、確定申告アプリなど高度な会話管理が実現できます。

SHARE

主なポイント

Difyのメモリ機能はチャットフロー専用で、会話の文脈を記憶するかどうかを制御します。ウインドウサイズで記憶する会話数を指定できます。Ver.0.7.0で追加された「会話変数」と「変数アサイン」により、音声対話やヒアリング型アプリ、確定申告アプリなど高度な会話管理が可能になりました。

catch-img

生成AI / LLM

2024年8月17日更新:2024年8月にDifyのバージョン0.7.0がローンチされ、新機能「Conversation Variables(会話変数)」と「Variable Assigner(変数アサイン)」が追加されましたので、この2機能の解説を後半に追記しました。

ノーコードLLM構築ツール「Dify」のつまずきポイントを、備忘録を兼ねて解説していきます。

※一般的な使い方のポイントは下記記事をご参照ください

Difyの特長と使い方(非エンジニアに向けて解説)Difyの特長と使い方や理解のポイントを詳しく解説します。特に非エンジニアの視点から 、つまずきやすいポイントなどを解説していきます。広報・PR支援の株式会社ガーオン

LLMのメモリー機能

迷うことが多い機能の一つが「メモリ―」機能です。

まずオフィシャルの説明です。

高度な機能

記憶:記憶をオンにすると、問題分類器の各入力に対話履歴が含まれ、LLM が文脈を理解しやすくなり、対話の理解能力が向上します。

記憶ウィンドウ:記憶ウィンドウが閉じている場合、システムはモデルのコンテキストウィンドウに基づいて対話履歴の伝達数を動的にフィルタリングします。開いている場合、ユーザーは対話履歴の伝達数を正確に制御できます(対数)。

よく分かりません。Perplexityに聞いてみます。

質問:Difyのメモリー機能とは?

回答:Difyのメモリー機能とは、チャットフロー内で複数回の対話の履歴メッセージを保存および伝達するために使用される機能です。この機能は、LLM(Large Language Model)や問題分類などのノードで有効にすることができます。メモリー機能を使用することで、チャットボットはユーザーとの対話履歴を記憶し、より適切な回答を提供することができます。メモリー機能は、チャットフローの開始ノードに内蔵されている変数sys.query、sys.files、sys.conversation_id、sys.user_idを使用して、対話履歴を保存および伝達します。さらに、メモリー機能は、チャットフローの終了ノードでプロセス終了時にのみ選択できる終了ノードとは異なり、プロセスの中間ステップでも出力をサポートする回答ノードで使用することができます。メモリー機能の利点は、チャットボットがユーザーとの対話履歴を記憶し、より適切な回答を提供することができることです。これにより、ユーザー体験が向上し、チャットボットの有用性が高まります。ただし、メモリー機能は、ワークフローにはメモリ関連の設定がなく、有効にできません。

記憶機能のようです。釈然としませんので調べて解説します。

チャットフローのみ有効

メモリー機能はChatflowのみ有効になる記憶保持機能のようです。ワークフローでは機能が出てきません。

メモリ機能を反映させた機能一覧はこちら。Dify機能一覧

実際に機能を見ていきます。

ChatflowのLLMを開くと、メモリ―機能が現れます。

Difyのメモリー機能

オンオフ可能な「メモリ」と数値選択も可能な「ウインドウサイズ」が現れます。

USERには、sys.query(チャット上でのユーザーの新期質問)が自動入力されます。

メモリ機能は会話を記憶するかどうか

この「メモリ」機能はチャットフロー上の会話において、ユーザーとの会話を記録するかどうかの機能のようです。

以下のプロンプトで実際にオン・オフを比較してみます。

Difyメモリー機能

Dify

※メモリをオフにするとsys.queryは消えるので、改めてUSERに設定して実行します。

メモリ機能オフの会話

Difyメモリー機能

直前の会話も記憶していません。

メモリ機能をオンにした会話

Difyメモリー機能

メモリをオンにすると、好物と季節をしっかりと回答しています。

このときのログを見てみます。

{
  "model_mode": "chat",
  "prompts": [\
    {\
      "role": "user",\
      "text": "あなたはチャットボットです。ユーザーの入力に会話形式で返答してください。分からないことは分からないと回答してください、。",\
      "files": []\
    },\
    {\
      "role": "user",\
      "text": "こんにちは。夏ですね。",\
      "files": []\
    },\
    {\
      "role": "assistant",\
      "text": "こんにちは!本当に夏ですね。暑い日が続いていますが、何か夏らしいことを楽しんでいますか?",\
      "files": []\
    },\
    {\
      "role": "user",\
      "text": "いいえ。ところで私の好物はほうじ茶フラペチーノです。",\
      "files": []\
    },\
    {\
      "role": "assistant",\
      "text": "ほうじ茶フラペチーノ、美味しいですよね!香ばしいほうじ茶の風味が夏にぴったりです。ほかにも好きな飲み物や食べ物はありますか?",\
      "files": []\
    },\
    {\
      "role": "user",\
      "text": "ありません。しかし暑いですね。",\
      "files": []\
    },\
    {\
      "role": "assistant",\
      "text": "確かに、暑い日が続いていますね。水分をしっかり取って、体調に気をつけてくださいね。何か涼しくなる方法を見つけましたか?",\
      "files": []\
    },\
    {\
      "role": "user",\
      "text": "見つけていません。ところで私の好物を知っていますか?",\
      "files": []\
    },\
    {\
      "role": "assistant",\
      "text": "はい、あなたの好物はほうじ茶フラペチーノですね!とても美味しい選択です。他にも何か気になる食べ物や飲み物があれば教えてください。",\
      "files": []\
    },\
    {\
      "role": "user",\
      "text": "ところで今の季節はいつですか?",\
      "files": []\
    }\
  ]
}

初回設定からmessagesに追加されていることが分かります。

この流れはOPEN AIのドキュメントを見るとより理解が深まると思います。

openaidoc

ウインドウサイズは会話記憶の数

ウインドウサイズは、userの回答を何個前までプロンプトに入れるかという設定のようです。

ウインドウサイズ1に設定すれば、1つ前のユーザー回答まで保持します。2個以上前の記憶は保持されません。

ウインドウサイズ1の会話

Difyウインドウサイズ

Conversation VariablesとVariable Assigner

この2つもメモリー機能と同様、チャットフローのみで使える機能となります。

これらはChatGPTでいうところの「メモリー機能」と考えると分かりやすいと思います。

LLMメモリー機能は、チャットフローにおける会話履歴(messages)保持の有無やその量を調整する機能でした。

この方式だと、記憶しておかなくても良い会話でも時系列に順番に保存していくことになり、会話が継続されるとデータが増えてしまいます。

またチャット終了時にはリセットされてしまうため、長期・永続的な記憶として使うことができません。

今回の新機能Conversation VariablesとVariable Assignerは、 「LLMが記憶するべき要素を自動判断・取得し、記憶項目を変数として自動的に保存しておく機能」 と定義するのが良いかもしれません。

テンプレートには、

・Patient Intake Chatbot(性別/年齢/症状からおすすめの診療科を教えてくれる)

・Personalized Memory Assistant(会話から事実や好み、状況などを記憶してくれるアシスタント)

の2つが確認できます。

Difyのメモリ機能とVariable Assignerを活用したワークフロー構造図

Patient Intake Chatbotはなかなか複雑ですが、

・LLMで会話からuserの年齢・性別・症状の3つのパラメーターを抽出

・Variable Assignerで3つの変数に入れる

・LLMで診療科を提示

という流れのようです。

Difyのメモリー機能とフロー図。START、条件分岐、メモリー抽出、変数割当、会話履歴逃避などのノードを表示。

仕組みはPersonalized Memory Assistantのほうが分かりやすいです。

流れは以下のようなプロセスです。Difyメモリー「Conversation Variables(会話変数)」と「Variable Assigner(変数アサイン)」

userの発話に以下の3点が現れたら記憶するというフローになりますが、memoriesはどういう意味なのか不明でした。

・the facts(事実)

・preferences(好み)

・memories(思い出?)

これはLLMメモリーライブラリのmem0のプロンプトから使ったと説明が記載されていますが、この3つの区分がMECEなのか、最適なのかは少し疑問です。

Mem0 - The Memory Layer for Personalized AIA self-improving memory layer for LLM applications. Create personalized AI experiences that saves costs and delights users.https://www.mem0.ai/

mem0/mem0/configs/prompts.py at main 揃 mem0ai/mem0The memory layer for Personalized AI. Contribute to mem0ai/mem0 development by creating an account on GitHub.GitHub

またサンプルコードではCodeノードでarg1[0]を選択していますが、これの判断基準を実際にどうするのかはわかりませんでした(ここで結構つまずくはず)。

import json

def main(arg1: list) -> str:
    try:
        # 以下でarg1[0]に絞り込んでいるが、実践ではどうするのか不明

        # Assume arg1[0] is the dictionary we need to process
        context = arg1[0] if arg1 else {}

        # Construct the memory object
        memory = {"memory": context}

        # Convert the object to a JSON string
        json_str = json.dumps(memory, ensure_ascii=False, indent=2)

        # Wrap the JSON string in <answer> tags
        result = f"<answer>{json_str}</answer>"

        return {
            "result": result
        }
    except Exception as e:
        return {
            "result": f"<answer>Error: {str(e)}</answer>"
        }

ここもベクトルDB検索でリランクして上位n個を使う、といった使い方が今後できるのかもしれません。

Appendが可能なのは、array[object]のみ

Dify の Variable assignment でメモリ変数に Append モードを選択した画面

WRITE MODEで会話変数の編集効果を、Overwrite(上書き)、Append(追加)、Clear(削除)の3種類から選べます。

Difyの会話変数追加ダイアログでstring/number/object/arrayなどのデータ型を選択している画面

Appendは会話変数のタイプを array[object] にしているときしか選択できません。

会話変数の中身

会話の中からfactsとpreferences、memoriesを取得した結果は、以下のような関数の格納となっています。


{
  "memory": [\
    {\
      "facts": ["猫を飼っている", "新しいスマホを買った"],\
      "preferences": ["ラーメンが好き", "辛いものが苦手"],\
      "memories": ["ユーザーは今日機嫌が良い"]\
    }\
  ]
}

テンプレートではこの内容を最終回答のLLMのシステムプロンプトに入れて回答させています。

You are an expert at answering {{#sys.query#}} based on the provided memories.

Your task is to provide accurate and concise answers to the questions by leveraging the information given in {{ここに会話変数}}

Guidelines:
- Extract relevant information from the memories based on the question.
- If no relevant information is found, make sure you don't say no information is found. Instead, accept the question and provide a general response.
- Ensure that the answers are clear, concise, and directly address the question.
Ensure that the language of the response is consistent with {{#sys.query#}}.

こんなケースで使える?

2種のテンプレートでは、メモリーとの使い分けなど分かりづらい部分もありますが(サンプルコードではメモリー機能も一部オンになっている)、Webでは「チャットボックスにアップロードされたファイル(近々配布予定)」も使えるようになるということで、外部記憶を自在に出し入れできるようになるのだと思います。

自分の大量のパーソナルデータをjson形式でまとめておけば、あらゆるAIに読み取って個人個人に最適化された回答をもらうことができるでしょう。

1.音声メインやマルチモーダル全盛期になったときに強い?

何気ない会話から、重要項目を自動抽出し記憶してておけるため、音声やビデオ入力がメインとなった際にかなり強みを発揮しそうです。

ToDoリストなどに使ったり、冷蔵庫の中身を変数に入れておけばスーパーの買い物でも大変便利そうです。

2.プレスリリースの作成ヒアリングにも使える

以前プレスリリースを自動作成するチャットボット構成を説明しましたが、6W5Hを変数に入れておき、チャットフローで確認しながらヒアリング項目を埋めていき、プレスリリースを作りあげるという流れも可能かもしれません。

Difyにプレスリリースを自動作成させる方法ノーコードLLM構築ツールDifyでプレスリリース作成業務を自動化する方法を解説します。広報・PR支援の株式会社ガーオン

ただ現状では、エージェントにツールを色々と持たせて作ったほうが良い気がします。

エージェントの場合はログがLangSmithなどでしか確認できませんが、会話履歴をそのまま全てmessagesで残しているだけのようです。

3.会計系、特に確定申告アプリは大活躍しそう

入力変数が一定でありルールベースな判断ができる筆頭が、確定申告かもしれません。

MECEですらなく日本語もたどたどしい確定申告サイトは、こうした機能で早く刷新(淘汰)されてほしいものです。

以上、Difyのメモリー機能に関するお悩みの解決の一助となれば幸いです。

SHARE
Difyの使い方(メモリ―機能と会話変数とは) | 株式会社ガーオン