Скачать text dedup - Скачать исходный код text dedup

text dedup

Другой исходный код

Reference Snapshot

Скачать

Установка

pip install text-dedup

или

pip install git+https://github.com/ChenghaoMou/text-dedup

Документация

GitHub Pages

Функции

Этот репозиторий содержит набор сценариев дедупликации текста, которые готовы к использованию или изменяются в зависимости от ваших потребностей:

Retsim/Unisim, основанная на внедрении вблизи дедупликации (WIP)
Minhash + Minhashlsh, включая реализацию Spark, подходящую для больших (ТБ) наборов данных
64 или 128 -битный Simhash
Суфзаррейская подстроение
Bloom Filter
Точный хэш (уровень документа, линейный уровень/CCNet)

У меня также есть большие планы на будущее:

Эталон памяти для потоковой обработки
Междатазит дедупликация
Переписать массив суффиксов в Python
Коллекции других методов дедупликации: суперминхаш, probminhash, treeminhash, bagminhash, оптимальное уплотнение для быстрого и точного хэширования, быстрого сходства, быстрое сходство

Тем не менее, я не собираюсь строить библиотеку дедупликации общего назначения, которая была целью этого репо. Я также постепенно уйду с пакета PYPI. Причиной этого является то, что каждый вариант использования может отличаться и требует тщательного дизайна и рассмотрения. Я искренне призываю вас сначала прочитать сценарий (они относительно короткие), чтобы вы могли понять, что здесь поставлено на карту при его использовании. Вы можете использовать его для начальной загрузки своего собственного сценария или просто использовать его в качестве ссылки.

Благодарности

Этот репозиторий вдохновлен следующими проектами и сильно влияет уроки, извлеченные из моего собственного участия в BigScience (Apache 2.0) и BigCode (Apache 2.0). Есть сообщение в блоге о путешествии. Отзывы приветствуются!

Datasketch (MIT)
Simhash-Py и Simhash-Cpp (MIT)
Дедуплирование данных обучения улучшает языковые модели (Apache 2.0)
Gaoya (MIT)

Быстрые примеры

Нативный Pyspark

Измените text_dedup/minhash_spark.py для вашего собственного проекта и набора данных сначала!

Предполагая, что у вас есть загруженный набор данных (в паркете) в разделе "./temp-data", вы можете обработать с файлом с вашим локальным вычислительным вычислением:

 export PYSPARK_PYTHON= " path to your python with scipy, xxhash, and numpy installed "
spark-submit --executor-memory 16g 
    --driver-memory 20g 
    --executor-cores 3 
    --num-executors 2 
    --packages graphframes:graphframes:0.8.2-spark3.2-s_2.12 
    --conf " spark.executor.extraJavaOptions=-Dlog4j.configuration=./log4j.properties " 
    --conf " spark.driver.extraJavaOptions=-Dlog4j.configuration=./log4j.properties " 
    text_dedup/minhash_spark.py
    --input " ./temp-data " 
    --output " ./temp-output " 
    --column " text " 
    --threshold 0.7

 DEBUG __main__ - ------------------------------------------------------------------------------------------------------------------------
DEBUG __main__ - Using B=25, R=10
DEBUG __main__ - Loaded documents: 88803
DEBUG __main__ - args.input='./temp-data'
DEBUG __main__ - args.output='./temp-output'
DEBUG __main__ - args.threshold=0.7
DEBUG __main__ - args.ngram_size=5
DEBUG __main__ - args.min_length=5
DEBUG __main__ - args.num_perm=250
DEBUG __main__ - args.column='text'
DEBUG __main__ - id                                                              : bigint
DEBUG __main__ - text                                                            : string
DEBUG __main__ - meta                                                            : struct<warc_headers:struct<warc-record-id:string,warc-date:string,content-type:string,content-length:int,warc-type:string,warc-identified-content-language:string,warc-refers-to:string,warc-target-uri:string,warc-block-digest:string>,identification:struct<label:string,prob:float>,annotations:array<string>,line_identifications:array<struct<label:string,prob:float>>>
DEBUG __main__ - __id__                                                          : bigint
DEBUG __main__ - ------------------------------------------------------------------------------------------------------------------------
DEBUG __main__ - Initial edges: 52102
DEBUG __main__ - Edges DataFrame: 52102
DEBUG __main__ - Vertices DataFrame: 50206
DEBUG __main__ - Assignment DataFrame: 50206
DEBUG __main__ - Merging records: 88803
INFO  __main__ - Saving with 1 partitions and 44092 rows each
DEBUG __main__ - ------------------------------------------------------------------------------------------------------------------------
DEBUG __main__ - Number of rows before:    88803
DEBUG __main__ - Number of rows after:     44092
DEBUG __main__ - Percentage of rows kept:  49.65%
DEBUG __main__ - Output:                   ./temp-output
DEBUG __main__ - Time:                     68.80s
DEBUG __main__ - ------------------------------------------------------------------------------------------------------------------------

Или посмотрите на BigCode-V2/Run.sh о том, как запустить задание с помощью GCP DataProc.

Unisim (WIP)

Основываясь на модели Google RetSIM (GitHub, Arxiv), это встраивание, основанное на методе ближней размены.

Для большого набора данных для быстрого вывода потребуется графические процессоры для быстрого вывода.

python text_dedup/ann_unisim.py --path truthful_qa --name generation --split validation --output temp --column question

Выход:

 INFO     Load Dataset                    : 5.56s
INFO     Index Dataset                   : 8.13s
INFO     Clustering                      : 8.72s
INFO     Filtering                       : 0.35s
INFO     Saving                          : 0.01s
INFO     Cleaning                        : 0.00s
INFO     Total                           : 22.77s
INFO     Before                          : 817
INFO     After                           : 788

Суффикс массива подстроения точная дедупликация

 # input
python -m text_dedup.suffix_array 
    --path " oscar-corpus/OSCAR-2201 " 
    --name " gl " 
    --split " train " 
    --cache_dir " ./cache " 
    --output " output/suffix_array/oscar_gl_dedup " 
    --column " text " 
    --google_repo_path " /Users/chenghao/Downloads/Projects/text-dedup/deduplicate-text-datasets " 
    --use_auth_token true

# output
INFO     Loading                       : 2.75 seconds
INFO     Preprocessing                 : 4.78 seconds
INFO     SuffixArray                   : 98.29 seconds
INFO     SelfSimilar                   : 4.24 seconds
INFO     Restore                       : 0.25 seconds
INFO     Deduplicate                   : 6.23 seconds
INFO     Saving                        : 8.91 seconds
INFO     Total                         : 125.45 seconds
INFO     Before                        : 180332342 bytes (88803)
INFO     After                         : 97646271 bytes (40404)

Минхаш возле дедупликации

 # input
python -m text_dedup.minhash 
  --path " oscar-corpus/OSCAR-2201 " 
  --name " gl " 
  --split " train " 
  --cache_dir " ./cache " 
  --output " output/minhash/oscar_gl_dedup " 
  --column " text " 
  --batch_size 10000 
  --use_auth_token true

# output
INFO     Loading                         : 2.62 seconds
INFO     MinHashing                      : 0.08 seconds
INFO     Clustering                      : 2.20 seconds
INFO     Filtering                       : 0.53 seconds
INFO     Saving                          : 9.86 seconds
INFO     Total                           : 15.29 seconds
INFO     Data Number (before)            : 88803
INFO     Data Number (after)             : 44124 (49.69%)
INFO     Duplicate Number                : 44679 (50.31%)
INFO     ? Happy Deduplicating ?

Симхаш возле дедупликации

 # input
python -m text_dedup.simhash 
  --path " oscar-corpus/OSCAR-2201 " 
  --name " gl " 
  --split " train " 
  --cache_dir " ./cache " 
  --output " output/simhash/oscar_gl_dedup " 
  --column " text " 
  --batch_size 10000 
  --use_auth_token true

# output
INFO     Loading                         : 2.60 seconds
INFO     SimHashing                      : 0.04 seconds
INFO     Indexing                        : 28.88 seconds
INFO     Filtering                       : 0.88 seconds
INFO     Saving                          : 10.41 seconds
INFO     Total                           : 42.80 seconds
INFO     Data Number (before)            : 88803
INFO     Data Number (after)             : 46163 (51.98%)
INFO     Duplicate Number                : 42640 (48.02%)
INFO     ? Happy Deduplicating ?

Точная точная дедупликация

 # input
python -m text_dedup.exact_hash 
    --path " oscar-corpus/OSCAR-2201 " 
    --name " gl " 
    --split " train " 
    --cache_dir " ./cache " 
    --output " output/exact_hash/oscar_gl_dedup " 
    --column " text " 
    --batch_size 1000 
    --use_auth_token true

# output
INFO     Loading                       : 2.95s
INFO     Processing                    : 3.79s
INFO     Filtering                     : 0.10s
INFO     Saving                        : 2.89s
INFO     Total                         : 9.72s
INFO     Before                        : 88803
INFO     After                         : 47049

Фильтр цветов точная дедупликация

 # input
python -m text_dedup.bloom_filter 
    --path " oscar-corpus/OSCAR-2201 " 
    --name " gl " 
    --split " train " 
    --cache_dir " ./cache " 
    --output " output/bloom_filter/oscar_gl_dedup " 
    --error_rate 1e-5 
    --column " text " 
    --use_auth_token true    --batch_size 1000

# output
INFO     Loading                       : 2.72s
INFO     Processing                    : 4.84s
INFO     Filtering                     : 0.10s
INFO     Saving                        : 2.88s
INFO     Total                         : 10.54s
INFO     Before                        : 88803
INFO     After                         : 47045

Тесты

Примечание

Реализация Spark имеет некоторые накладные расходы для небольших наборов данных, поэтому я рекомендую использовать сценарий только тогда, когда у вас есть большой набор данных и достаточный вычислительный ресурсов.

PineCone/Core-2020-05-10-Deduplication

См. tests/benchmark_core.py для воспроизведения.

Алгоритм	Точность (дубликаты)	Напомним (дубликаты)	Точность (не дубликаты)	Напомним (не дубликаты)	Macro F1 оценка	Точность	Время
Унисим	0,9307	0,8924	0,9055	0,9394	0,9181	0,9054	1305,79 с
Минхаш Спарк	0,957	0,9445	0,9471	0,959	0,952	0,9202	691.77S
Минхаш	0,9594	0,9445	0,9474	0,9616	0,9534	0,924	18.88s
Симхаш	0,9042	0,721	0,792	0,9329	0,8481	0,8321	644,36 с
Точное название	0,8302	0,5521	0,7098	0,9065	0,77	0,7456	-
Точное соответствие заголовка ¹	0,830	0,50	0,709	0,992	0,757	0,746	-
Симхаш соответствует ¹	0,697	0,247	0,598	0,985	0,631	0,616	-
Документ вектор сходство ¹	0,912	0,779	0,861	0,986	0,885	0,883	-
Гибридный метод ¹	0,908	0,828	0,899	0,979	0,904	0,903	-
Лабсе ²	0,937	0,923	0,930	0,943	0,933	0,919	-
Многоязычное использование ²	0,917	0,907	0,918	0,927	0,917	0,909	-
Многоязычный E5-баз ²	0,931	0,908	0,919	0,939	0,924	0,920	-
Минхаш + LSH ²	0,929	0,902	0,915	0,938	0,921	0,918	-
Retsim Partial Dup ²	0,945	0,941	0,945	0,949	0,945	0,928	-
Retsim ближайший ²	0,928	0,937	0,942	0,934	0,935	0,926	-

Новости

См. tests/benchmark_news.py для воспроизведения.

Скорректированный индекс RAND (ARI) в наборе данных о новостях:

Модель/алгоритм	Ари
Симхаш	0,612
Минхаш (искра)	0,740
Минхаш	0,742
Retsim ближе к Dup + Ann*	0,051
N-грамм ³	0,440
Симхаш ²	0,695
Минхаш ³	0,737
Минхаш ²	0,783
Многоязычное использование ²	0,730
Многоязычный E5-баз ²	0,742
S-Bert ³	0,700
Retsim Partial Dup ²	0,831
Retsim ближайший ²	0,704
Повторный рейтинг ³	0,937
Bi-Encoder ³	0,915

*: Я не могу воспроизводить результаты из бумаги.

Лицензия

Apache 2.0

Цитаты

Как правило, вы можете цитировать этот репозиторий как:

 @software { chenghao_mou_2023_8364980 ,
  author       = { Chenghao Mou and
                  Chris Ha and
                  Kenneth Enevoldsen and
                  Peiyuan Liu } ,
  title        = { ChenghaoMou/text-dedup: Reference Snapshot } ,
  month        = sep,
  year         = 2023 ,
  publisher    = { Zenodo } ,
  version      = { 2023.09.20 } ,
  doi          = { 10.5281/zenodo.8364980 } ,
  url          = { https://doi.org/10.5281/zenodo.8364980 }
}

Версия Spark родилась от BigCode (Apache 2.0) и BigScience (Apache 2.0), и вы можете привести оригинальную бумагу, если хотите:

 @article {
kocetkov2023the,
title = { The Stack: 3 {TB} of permissively licensed source code } ,
author = { Denis Kocetkov and Raymond Li and Loubna Ben allal and Jia LI and Chenghao Mou and Yacine Jernite and Margaret Mitchell and Carlos Mu{~n}oz Ferrandis and Sean Hughes and Thomas Wolf and Dzmitry Bahdanau and Leandro Von Werra and Harm de Vries } ,
journal = { Transactions on Machine Learning Research } ,
issn = { 2835-8856 } ,
year = { 2023 } ,
url = { https://openreview.net/forum?id=pxpbTdUEpD } ,
note = { }
}

Дедупликация научных документов с использованием локальности, чувствительного к локальности и встроения слов ↩ ² ↩ ³ ↩ ⁴
RETSIM: устойчивое и эффективное сходство текста ↩ ↩ ² ↩ ³ ↩ ⁴ ↩ ⁵ ↩ ⁶ ↩ ⁷ ↩ ⁸ ↩ ⁹ ↩ ¹⁰ ↩ ¹¹ ↩ ¹²
Длубление шума в масштабе ↩ ² ↩ ³ ↩ ⁴ ↩ ⁵

Расширять

Дополнительная информация

Версия Reference Snapshot
Тип Другой исходный код
Время обновления 2025-04-19
размер 194.73KB
От Github

Связанные приложения

Текст с Иисусом на китайском языке

2023-08-23
Текст с Иисусом

2023-08-17
Текст с Иисусом, китайская версия

2023-08-17
Напиши или умри

2023-07-03
RTE (редактор форматированного текста) ASP.NET

2011-05-25
Обмен текстовыми ссылками PHP

2009-04-29

text dedup

Установка

Документация

Функции

Благодарности

Быстрые примеры

Тесты

Лицензия

Цитаты

Текст с Иисусом на китайском языке

Текст с Иисусом

Текст с Иисусом, китайская версия

Напиши или умри

RTE (редактор форматированного текста) ASP.NET

Обмен текстовыми ссылками PHP

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express

text dedup

Установка

Документация

Функции

Благодарности

Быстрые примеры

Тесты

Лицензия

Цитаты

Сноски