Английский | 中文
Код и данные для статьи «Coggpt: раскрытие силы когнитивной динамики на больших языковых моделях».
Cogbench - это двуязычный эталон, специально предназначенный для оценки когнитивной динамики крупных языковых моделей (LLMS) как на китайском, так и на английском языке. Cogbench разделен на две части на основе типа потока информации: Cogbench A для статей и Cogbench V для коротких видеороликов.
В этом эталоне как LLM, так и человеку присваиваются одинаковый начальный профиль и получают идентичную информационную потоку в течение 10 итераций. После каждой итерации они обязаны заполнять одну и ту же когнитивную анкету. Эта вопросник, используя пять баллов, позволяет участникам выразить свое отношение к текущим вопросам.
Cogbench стремится оценить когнитивное выравнивание между LLM и человеком. Метрики оценки включают:
Coggpt -это LLM-управляемый агент, предназначенный для демонстрации когнитивной динамики LLMS. Столкнувшись с постоянно меняющимися информационными потоками, Coggpt регулярно обновляет свой профиль и методично сохраняет предпочтительные знания в своей долговременной памяти. Эта уникальная способность позволяет CoGGPT поддерживать специфическую когнитивную динамику, способствуя обучению на протяжении всей жизни.

Следуйте этим шагам, чтобы построить Cogbench:
cd для ввода каталога репозитория.dataset .cogbench_a.json и cogbench_v.json для Cogbench A и Cogbench V , соответственно, и запишите ваши экспериментальные результаты.eval_cogbench_a.json и eval_cogbench_v.json с вашими экспериментальными результатами для оценки. export OPENAI_API_KEY=sk-xxxxxpython coggpt/agent.pyЧтобы оценить ваш метод на основе показателей подлинности и рациональности, мы рекомендуем выполнить следующие команды:
python evaluation.py --file_path < YOUR_FILE_PATH > --method < YOUR_METHOD_NAME > --authenticity --rationality Например, чтобы оценить метод CoT на Cogbench V , запустите:
python evaluation.py --file_path dataset/english/eval_cogbench_v.json --method CoT --authenticity --rationalityОценки оценки будут отображаться следующим образом:
======= CoT Authenticity =======
Average authenticity: 0.15277666156947955
5th iteration authenticity: 0.3023255813953488
10th iteration authenticity: 0.13135593220338992
======= CoT Rationality =======
Average rationality: 3.058333333333333
5th iteration rationality: 3.7666666666666666
10th iteration rationality: 3.0833333333333335Пожалуйста, обратитесь к Cogbench для более подробной информации.
@misc{lv2024coggpt,
title={CogGPT: Unleashing the Power of Cognitive Dynamics on Large Language Models},
author={Yaojia Lv and Haojie Pan and Ruiji Fu and Ming Liu and Zhongyuan Wang and Bing Qin},
year={2024},
eprint={2401.08438},
archivePrefix={arXiv},
primaryClass={cs.CL}
}