Коллекция сценариев для оптимизации перевода файлов разметки с использованием векторных магазинов и глубокого обучения.
Этот инструментарий предоставляет набор сценариев Python, предназначенные для упрощения процесса перевода для файлов разметки. Сценарии используют модели встраивания встраивания для повышения точности поиска документов и улучшения общего рабочего процесса перевода.
Скрипт search_word.py инициализирует поисковую систему для получения соответствующих документов на основе Entgeddings. Он предназначен для работы с файлами разметки на нескольких языках. Приложение CLI основано на Typer.
Установка:
pip install fatushfatush rungit clone https://github.com/alperiox/fatush.gitcd fatushpip install -r requirements.txt или poetry installКонфигурация:
python fatush/search_word.py runconfig.yaml не найден, скрипт будет извлекать документы из репокса Fastapi и создавать необходимый файл конфигурации.Обработка документов:
Загрузка модели встраивания:
Векторный магазин:
Инициализация поисковой системы:
Тодос:
search_word.pysource_lang : код исходного языка (например, 'en').translation_lang : код языка перевода (например, 'tr').docs_path : путь к документам (по умолчанию является текущий рабочий каталог).vectorstore_path : Path to Vector Store (по умолчанию текущий рабочий каталог). Поскольку проект построен на моем опыте перевода документации FastAPI, более приятная абстракция является обязательной для более широкого использования инструментов. Это связано с тем, что в настоящее время есть несколько жестко кодированных переменных, например, извлечение документации из репозитория Fastapi.