Недавно анализ, основанный на 14 миллионах тезисов PubMed, привлек внимание. Исследование выявило значительное влияние генераторов текста AI, особенно ChatGPT, на написание научных документов. Анализируя изменения в языковом стиле, исследователи обнаружили характерный словарный запас текста, сгенерированного ИИ, и оценили долю резюме, на которые повлиял ИИ. Это исследование не только предоставляет количественные данные, но также исследует плюсы и минусы использования ИИ в написании научных статей, а также различия между разными странами и журналами, что вызывает дальнейшие дискуссии о нормах написания научных статей и этике ИИ.
Анализ 14 миллионов рефератов PubMed показывает, что генераторы текста ИИ повлияли как минимум на 10% научных рефератов с момента запуска ChatGPT, а в некоторых областях и странах эта доля даже выше. Исследователи из Тюбингенского университета и Северо-Западного университета изучили языковые изменения в 14 миллионах научных тезисов в период с 2010 по 2024 год. Они обнаружили, что ChatGPT и аналогичные генераторы текста с искусственным интеллектом привели к значительному увеличению словарного запаса определенных стилей. Исследователи впервые определили слова, которые появлялись значительно чаще в 2024 году, чем в предыдущие годы. Эти слова включают в себя множество глаголов и прилагательных, типичных для стиля письма ChatGPT, таких как «копать глубоко», «сложный», «витрина» и «выделяться». Основываясь на этих ключевых словах, исследователи подсчитали, что к 2024 году генераторы текста ИИ будут влиять как минимум на 10% всех тезисов PubMed. В некоторых случаях это воздействие превосходит даже влияние таких слов, как «Ковид», «эпидемия» или «Эбола» в соответствующие периоды времени. Исследователи обнаружили, что около 15% тезисов в подгруппах PubMed в таких странах, как Китай и Южная Корея, были созданы с использованием ChatGPT, по сравнению с 3% в Великобритании. Однако это не обязательно означает, что британские авторы меньше используют ChatGPT. На самом деле, по мнению исследователей, фактическое использование генераторов текста ИИ может быть намного выше. Многие исследователи редактируют текст, сгенерированный ИИ, чтобы удалить типичные слова логотипа. Носители языка могут иметь здесь преимущество, поскольку они с большей вероятностью заметят такие фразы. Это затрудняет определение истинной доли сводок, затронутых ИИ. В пределах измеримого диапазона использование ИИ особенно высоко в журналах, например, примерно 17% в журналах Frontiers и MDPI и 20% в журналах по информационным технологиям. Среди IT-журналов доля китайских авторов самая высокая и достигает 35%. Научным авторам ИИ может помочь сделать статьи более читабельными. Автор исследования Дмитрий Кобак сказал, что генеративный ИИ, разработанный специально для обобщения, не обязательно является проблемой. Однако генераторы текста ИИ также могут фабриковать факты, усиливать предвзятость и даже заниматься плагиатом, а также уменьшать разнообразие и оригинальность научных текстов. Кажется несколько ироничным, что научная языковая модель с открытым исходным кодом «Galactica», выпущенная компанией Meta Company незадолго до выпуска ChatGPT, подверглась резкой критике со стороны некоторых представителей научного сообщества, что вынудило Meta отключить ее. Это, очевидно, не помешало генеративному ИИ войти в научные статьи, но, возможно, помешало внедрению системы, специально оптимизированной для этой задачи. Основные моменты: анализ рефератов PubMed показал, что с момента запуска ChatGPT не менее 10% научных рефератов были затронуты генератором текста AI. В подгруппе PubMed в таких странах, как Китай и Южная Корея, примерно 15% рефератов были созданы с использованием ChatGPT, по сравнению с только 3% в Великобритании. Исследователи призывают к переоценке рекомендаций по использованию генераторов текста ИИ в науке, поскольку генераторы текста ИИ могут фабриковать факты, усиливать предвзятость и даже совершать плагиат.
Результаты этого исследования предупреждают нас о том, что к применению ИИ в научных трудах следует относиться с осторожностью и необходимо сформулировать более строгие нормы и этические рекомендации для обеспечения академической честности и надежности исследований. Будущие исследования должны продолжить изучение того, как лучше выявлять и избегать рисков, связанных с текстом, генерируемым ИИ, и сбалансировать удобство письма с помощью ИИ с потенциальными негативными последствиями.