embedding_studio 다운로드 - embedding_studio 소스 코드 다운로드

embedding_studio

기타 소스코드

v0.0.1

다운로드

웹 사이트 • 문서 • 과제 및 솔루션 • 사용 사례

Embedding Studio는 결합 된 임베딩 모델과 벡터 데이터베이스를 포괄적 인 검색 엔진으로 원활하게 변환하도록 설계된 혁신적인 오픈 소스 프레임 워크입니다. ClickStream 컬렉션을위한 내장 기능, 검색 경험의 지속적인 개선 및 임베딩 모델의 자동 적응을 통해 풀 사이클 검색 엔진을위한 기본 솔루션을 제공합니다.

커뮤니티 지원

우리 팀의 열정으로 스튜디오를 포함시킵니다. 저장소의 스타 는 우리가 계속 발전하는 데 도움이됩니다.
우리의 목표에 도달하는 데 참여하십시오.

특징

벡터 데이터베이스를 풀 사이클 검색 엔진으로 전환하십시오
? ️ ClickStream과 같은 사용자 피드백을 수집합니다
(*) 대기 시간에 실망하지 않고 검색 경험을 즉석에서 향상시킵니다
(*) 검색 품질을 모니터링하십시오
반복 메트릭 미세 조정 절차를 통해 임베딩 모델을 개선하십시오.
? (*) 추론에 새 버전의 임베딩 모델을 사용하십시오.
(*) 카탈로그 데이터에 임베딩을 미세 조정하십시오.
? (*) 제로 샷 쿼리 파서를 사용하고 개선하여 구조화 된 데이터베이스를 구조화되지 않은 검색과 혼합하십시오.

(*) - 개발 기능

임베딩 스튜디오는 사용자 정의가 가능하므로 직접 가져올 수 있습니다.

데이터 소스
벡터 데이터베이스
클릭 스트림 데이터베이스
임베딩 모델

스튜디오를 가장 잘 맞는시기는 언제입니까?

그것에 대해 더 자세히 설명합니다.

광범위한 카탈로그와 풍부한 구조화되지 않은 데이터가있는 비즈니스.
? ️? 고객 중심 플랫폼이 개인화 된 경험을 우선시합니다.
진화하는 컨텐츠 및 사용자 기본 설정이있는 동적 콘텐츠 플랫폼.
?? 미묘한 검색 쿼리를 처리하는 플랫폼.
검색 프로세스에서 혼합 데이터 유형의 통합.
사용자 상호 작용을 통한 지속적인 최적화를 추구하는 플랫폼.
? 강력하지만 저렴한 솔루션을 추구하는 예산 의식 조직.

도전을 해결할 수 있습니다

면책 조항 : 임베딩 스튜디오는 또 다른 벡터 데이터베이스가 아니며 벡터 데이터베이스를 모든 뉘앙스로 검색 엔진으로 변환 할 수있는 프레임 워크입니다.

카탈로그에 지나지 않지만 빠른 데모를 원합니다.
정적 검색 품질이지만 시간이 지남에 따라 향상되기를 원합니다.
사용자 경험 개선이 너무 오래 걸리고 사용자는 좌절감을 느낍니다.
느리고 리소스 소진 인덱스 업데이트
구조화되고 구조화되지 않은 검색의 혼합, 당신은 그것들을 결합하는 방법을 모릅니다.
구조화되지 않은 쿼리로 구조화 된 검색을 제대로 구문 분석하고 싶습니다.
신선한 품목이 길을 잃고 있습니다

도전과 솔루션에 대한 자세한 내용은 여기를 참조하십시오

개요

당사의 프레임 워크를 사용하면 사용자 경험에 따라 모델을 지속적으로 미세 조정하여 사용자 쿼리에 대한 검색 결과를 더 빠르고 정확하게 형성 할 수 있습니다.

$ color {red} { textsf {red :}} $ 그래프에서는 전체 텍스트 검색 (FTS), 가장 가까운 이웃 검색 (NNS) 등 향상된 개선 사항이없는 일반적인 검색 솔루션이 빨간색으로 표시됩니다. 추가 도구를 사용하지 않으면 검색 품질은 시간이 지남에 따라 변경되지 않습니다.

$ color {Orange} { textsf {Orange :}} $ 일부 피드백 (클릭, 리뷰, 투표, 토론 등)을 축적 한 다음 전체 모델 재교육을 시작하는 솔루션이 표시됩니다. 이러한 솔루션의 주요 문제는 전체 모델 재교육이 시간이 많이 걸리고 고가의 절차이므로 반응성 조정이 부족하다는 것입니다 (예 : 제품이 갑자기 수요 증가를 경험하고 검색 시스템이 아직 조정되지 않았을 때).

$ color {#6666ff} { textsf {indigo :}} $ 우리는 사용자 피드백을 수집하고 기존 버전과 새로운 버전의 차이점에 대한 모델을 빠르게 재교육 할 수있는 솔루션을 제안합니다. 이를 통해 시스템에 더 부드럽고 관련된 검색 품질 곡선이 가능합니다.

임베딩 스튜디오 차트

선적 서류 비치

공식 문서를보십시오.

시작하기

안녕하세요, 구조화되지 않은 세상!

임베딩 스튜디오를 시험해 보려면 사전 구성된 데모 프로젝트를 시작할 수 있습니다. 공개 S3 버킷에 저장된 데이터 세트, 사용자 클릭 용 에뮬레이터 및 모델을 미세 조정하기위한 기본 스크립트를 준비했습니다. 요구 사항에 적응하면 모델에 대한 미세 조정을 시작할 수 있습니다.

docker compose version 명령이 시스템에서 작동하는지 확인하십시오.

Docker Compose version v2.23.3

Docker-Compose 버전 명령을 시도 할 수도 있습니다. 앞으로, 우리는 최신 Docker Compose 버전 명령을 사용하지만 Docker-Compose 버전 명령은 시스템에서 성공적으로 작동 할 수 있습니다.

먼저 다음 명령을 실행하여 모든 임베딩 스튜디오 서비스를 제기하십시오.

docker compose up -d

모든 서비스가 시작되면 임베딩 스튜디오 사용을 시작할 수 있습니다. 사용자 검색 세션을 시뮬레이션합시다. 우리는 임베딩 스튜디오 API를 호출하고 사용자 행동을 모방하는 미리 작성된 스크립트를 실행합니다.

docker compose --profile demo_stage_clickstream up -d

스크립트 실행 후 모델 미세 조정을 시작할 수 있습니다. 다음 명령을 실행하십시오.

docker compose --profile demo_stage_finetuning up -d

이것은 미세 조정 작업자가 처리 한 작업을 대기합니다. 미세 조정 대기열의 모든 작업을 가져 오려면 엔드 포인트 /api/v1/fine-tuning/task 에 GET 요청을 보내십시오.

curl -X GET http://localhost:5000/api/v1/fine-tuning/task

대답은 다음과 같습니다.

[
  {
    "fine_tuning_method" : " Default Fine Tuning Method " ,
    "status" : " processing " ,
    "created_at" : " 2023-12-21T14:30:25.823000 " ,
    "updated_at" : " 2023-12-21T14:32:16.673000 " ,
    "batch_id" : " 65844a671089823652b83d43 " ,
    "id" : " 65844c019fa7cf0957d04758 "
  }
]

작업 ID가 있으면 엔드 포인트 /api/v1/fine-tuning/task/{task_id} 에 GET 요청을 보내서 미세 조정 진행 상황을 직접 모니터링 할 수 있습니다.

curl -X GET http://localhost:5000/api/v1/fine-tuning/task/65844c019fa7cf0957d04758

결과는 모든 작업을 쿼리 할 때받은 것과 유사합니다. 보다 편리한 진행 상황을 추적하는 방법은 http : // localhost : 5001에서 mlflow를 사용할 수 있습니다.

또한 모든 것이 올바르게 작동하는지 fine_tuning_worker 의 로그를 확인하는 것이 좋습니다. 이렇게하려면 명령을 사용하여 모든 서비스를 나열하십시오.

docker logs embedding_studio-fine_tuning_worker-1

모든 것이 성공적으로 완료되면 다음과 유사한 로그가 표시됩니다.

Epoch 2: 100% | ██████████ | 13/13 [01: 17< 00:00,  0.17it/s, v_num = 8]
[2023-12-21 14:59:05,931] [PID 7] [Thread-6] [pytorch_lightning.utilities.rank_zero] [INFO] ` Trainer.fit ` stopped: ` max_epochs=3 ` reached.
Epoch 2: 100% | ██████████ | 13/13 [01: 17< 00:00,  0.17it/s, v_num = 8]
[2023-12-21 14:59:05,975] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.finetune_embedding_one_param] [INFO] Save model (best only, current quality: 8.426392069685529e-05)
[2023-12-21 14:59:05,975] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Save model for 2 / 9a9509bf1ed7407fb61f8d623035278e
[2023-12-21 14:59:06,009] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [WARNING] No finished experiments found with model uploaded, except initial
[2023-12-21 14:59:16,432] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Upload is finished
[2023-12-21 14:59:16,433] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.finetune_embedding_one_param] [INFO] Saving is finished
[2023-12-21 14:59:16,433] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Finish current run 2 / 9a9509bf1ed7407fb61f8d623035278e
[2023-12-21 14:59:16,445] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Current run is finished
[2023-12-21 14:59:16,656] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Finish current iteration 2
[2023-12-21 14:59:16,673] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.experiments.experiments_tracker] [INFO] Current iteration is finished
[2023-12-21 14:59:16,673] [PID 7] [Thread-6] [embedding_studio.workers.fine_tuning.worker] [INFO] Fine tuning of the embedding model was completed successfully !

축하해요! 모델을 성공적으로 개선했습니다!

가장 좋은 모델을 다운로드하려면 Embedding Studio API를 사용할 수 있습니다.

curl -X GET http://localhost:5000/api/v1/fine-tuning/task/65844c019fa7cf0957d04758

모든 것이 정상이라면 다음 출력을 볼 수 있습니다.

{
  "fine_tuning_method" : " Default Fine Tuning Method " , 
  "status" : " done " , 
  "best_model_url" : " http://localhost:5001/get-artifact?path=model%2Fdata%2Fmodel.pth&run_uuid=571304f0c330448aa8cbce831944cfdd " , 
  ...
}

best_model_url 필드에는 http accessible model.pth 파일이 포함되어 있습니다.

다음 명령을 실행하여 *.pth 파일을 다운로드 할 수 있습니다.

wget http://localhost:5001/get-artifact ? path=model%2Fdata%2Fmodel.pth & run_uuid=571304f0c330448aa8cbce831944cfdd

기여

우리는 스튜디오를 포함시키는 것에 대한 기여를 환영합니다!

특허

임베딩 스튜디오는 Apache 라이센스 버전 2.0에 따라 라이센스가 부여됩니다. 정식 라이센스 텍스트는 라이센스를 참조하십시오.

확장하다

추가 정보

버전 v0.0.1
유형 기타 소스코드
업데이트 시간 2025-03-12
크기 10.51MB
출처 Github

embedding_studio

특징

스튜디오를 가장 잘 맞는시기는 언제입니까?

도전을 해결할 수 있습니다

개요

선적 서류 비치

시작하기

안녕하세요, 구조화되지 않은 세상!

기여

특허

PwR Studio

studio

langgraph studio

DiffSynth Studio

sam2 studio

gb studio

chat.petals.dev

GPT Prompt Templates

GPTyped

Google Dorks

shepherd

mongo express

Google Dorks

shepherd

mongo express