Deepmark AI는 Generative AI Builders가 대형 언어 모델 (LLM) 중에서 선택할 때 정보에 입각 한 결정을 내릴 수 있도록하여 자신의 데이터에 대한 다양한 LLM을 완벽하게 평가할 수 있으므로 AI 응용 프로그램은 예측 가능하고 안정적인 성능을 제공합니다.
PWC의 최근 연구에 따르면 인공 지능 (AI)은 2030 년까지 세계 경제에 약 15.7 조 달러를 기부 할 것으로 예상된다. AI가 다양한 도메인에서 계속 중요한 역할을함에 따라 생성 AI 및 대형 언어 모델 (LLM)은 막대한 비즈니스 가치를 생성 할 수있는 AI 전원 응용 프로그램을 만드는 데 강력한 빌딩 블록으로 등장했으며 생성 AI는 이러한 종류의 애플리케이션에서 핵심 요소입니다.
AI는 지난 10 년 동안 혁명을 일으켰으며 현재 MIT (https://horizon.mit.edu/about-us)의 AI 주제 전문가들은 생성 AI가 코드 개발, 채팅부, 오디오/비디오와 같은 여러 도메인을 더욱 변환 할 것이라고 믿고 있습니다. OpenAI와 같은 생성 AI 회사 및 ChatGpt와 같은 제품의 발전으로 Gen AI에는 법적, 윤리 및 신뢰 문제가 있습니다. 이러한 과제는 전반적인 기술을 주도하는 이러한 다양한 모델을 개선하거나 순위를 매기는 데 필요한 지표를 포함하여 제품에 대한 좋은 평가가 필요하다고 간청합니다. 이것은 또한 오늘날 여러 회사에서 Genai의 적응을위한 장애물입니다.
최근 HBR 보고서에 따르면 : 생성 AI는 Set-IT-and-Forget-IT 기준으로 작동 할 수 없습니다. 도구는 지속적인 감독이 필요합니다.
평가 지표가 명확하게 정의되고 LLM 모델이 릴리스 될 때 거의 즉시 평가된다. 그러나 개발자가 고유 한 데이터에 대한 작업 별 (고유) 평가를 할 수있는 도구 (오픈 소스 또는 독점)는 없다. 그 근처의 유일한 솔루션은 Langchain Langsmith입니다. Langchain Langsmith는 여전히 비공개 베타 상태이며 채택에 필수적인 포괄적 인 외적 지표를 제공 할만 큼 성숙하지 않습니다.
요약하면, 조직은 자체 데이터에서 LLM 모델을 평가하여 정확성, 정밀도, 리콜 (주어진 데이터 세트 내에서 긍정적 인 사례를 올바르게 식별 할 수있는 모델의 능력)을 제공하는 검증 가능한 결과를 전달할 수 있어야합니다. 모델은 동일한 프롬프트에 대한 다른 답변을 생성하여 출력의 정확도를 평가할 수있는 능력을 방해 할 수 있습니다.
이러한 신뢰성의 문제를 해결하기 위해, 우리 (Ingestai Labs)는 자신의 데이터에 대한 다양한 외적 (작업 별) 메트릭에 대한 대형 언어 모델 (LLM)을 평가할 수있는 벤치마킹 도구 인 Deepmark AI를 개발했습니다. GPT-4, Anthropic, GPT-3.5 Turbo, Cohere, AI21 등과 같은 주요 생성 AI API와 사전 구축 된 통합이 있습니다.
현재 Genai (LLM) 평가 지표
LLM의 성능을 평가할 때는 사용할 수있는 두 가지 주요 메트릭이 있습니다 : 고유 및 외적.
고유 한도의 예에는 다음이 포함되지만
외적 지표, 또는 작업 별 메트릭이라고도하는 것도 다음과 같은 것을 포함 할 수 있습니다.
이러한 평가 지표는 철저하지 않으며 특정 응용 프로그램에는 컨텍스트 및 요구 사항에 따라 추가 또는 대체 메트릭이있을 수 있지만 대기 시간, 정확도 또는 비용과 같은 작업 별 측정 항목 중 일부는 가장 일반적으로 사용되는 것으로 간주 될 수 있습니다.
Deepmark AI를 사용하면 LLM (Lang Deepmark AI를 사용하면 생성 AI 응용 프로그램 개발자는 특정 작업 (질문 응답, 감정 분석, NER 등)에 대해 수백 또는 수천 개의 반복에서 여러 LLM 모델을 실행하고 몇 초 만에 정확한 평가 결과를 얻을 수 있습니다.
Deepmark AI는 생성 AI 빌더를 위해 특별히 설계된 도구입니다.이 솔루션은 특정 사용 사례의 고유 한 요구에 따라 가장 예측 가능하고 신뢰할 수 있으며 비용 효율적인 생성 AI 모델을 식별하기위한 순식간 (작업 별) 메트릭의 반복 평가에 중점을 둡니다. Deepmark AI는 다양한 중요한 Genai 성능 지표의 포괄적 인 평가를위한 기능을 제공합니다.
Deepmark AI는 대형 언어 모델의 가장 중요한 성능 지표를 탐색 할 때 개발자와 조직이 정보에 입각 한 결정을 내릴 수 있도록합니다.
사용자 채택 :
2023 년 2 월에 출시 된 Ingestai Labs Plantorm (Playground, AI Aggregator, App Builder)은 다양한 AI 사용 사례의 빠른 탐사, 실험 및 빠른 프로토 타이핑을위한 커뮤니티 중심 플랫폼으로 빠르게 인기를 얻었습니다.
플랫폼은 상당한 업계 인정을 얻었습니다.
1 년이 채 안되어 Ingestai는 4 만 명 이상의 개인의 인상적인 사용자 기반을 축적했으며, 월간 약 15,000 명의 활동적인 사용자와 고객과 파이프 라인에 NASDAQ 거래 회사가 거의 없습니다. 이 수준의 견인력은 사용자를 유치하고 참여시키고 비즈니스 가치를 창출하는 플랫폼의 능력을 말합니다.
신뢰성은 생성 AI 모델의 효과를 결정하는 데 중요한 요소입니다. Deepmark.ai.ai는 다양한 조건에서 모델 성능을 평가하고 잠재적 인 실패 지점을 포착하여 포괄적 인 신뢰성 평가를 제공합니다. 이를 통해 개발자는 개선 영역을 식별하고 AI 응용 프로그램의 전반적인 신뢰성을 향상시킬 수 있습니다.
생성 AI 모델의 정확성을 보장하는 것은 고품질 출력을 생성하는 데 필수적입니다. Deepmark.ai.ai는 개발자에게 광범위한 테스트 및 검증 절차를 통해 모델의 정확성을 엄격하게 평가할 수있는 도구를 제공합니다. 고급 통계 기술과 비교 방법론을 활용하여 개발자는 생성 AI 응용 프로그램의 정확성에 대한 의미있는 통찰력을 도출 할 수 있습니다.
생성 AI 모델을 배포하기 전에 비용 영향을 이해하는 것은 자원 할당을 최적화하고 투자 수익을 극대화하는 데 필수적입니다. Deepmark.ai는 비용 분석을 통합하여 개발자가 다양한 Genai 모델에서 AI 응용 프로그램을 실행하는 것과 관련된 재무 요구 사항을 정확하게 추정 할 수 있도록합니다. DeepMark.ai는 비용 예측을 제공함으로써 개발자가 비용 효율적인 솔루션을 달성하기 위해 정보에 근거한 결정을 내릴 수 있도록 도와줍니다.
생성 된 출력의 관련성을 보장하는 것이 중요합니다. 특히 특정 사용 사례를 해결하기 위해 생성 AI가 사용되는 응용 분야에서. Deepmark.ai.ai는 개발자에게 원하는 기준과 생성 된 출력을 비교할 수있는 도구를 제공함으로써 관련성 평가를 용이하게합니다. 이를 통해 개발자는 모델을 미세 조정하고 생성 된 컨텐츠가 의도 된 목표 및 요구 사항과 일치 할 수 있습니다.
생성 AI 모델에 대한 API의 대기 시간 평가는 고품질의 효율적인 AI 구동 응용 프로그램을 제공하는 데 매우 중요합니다. 대기 시간은 요청이 이루어진 후 응답을받는 데 걸리는 시간을 나타내며 성능의 잠재적 지표입니다. 대기 시간을 평가함으로써 AI 개발자는 비 효율성을 식별하고 AI 애플리케이션이 최적의 속도로 수행되도록 보장 할 수 있습니다. 이는 전반적인 사용자 만족도에 기여하며 AI 응용 프로그램의 신뢰성과 신뢰성에 영향을 미칩니다.
수백 또는 수천 건의 요청에 대한 실패율을 평가하고 모니터링하는 것은 생성 AI 응용 프로그램의 견고성 평가의 필수 측면입니다. Deepmark.ai는 실패율 평가 기능을 제공하여 개발자가 초당 수백에서 수천 개의 요청으로 다양한 척도에서 실패율을 원활하게 추적 할 수 있도록합니다. 잠재적 인 실패 패턴에 대한 통찰력을 제공함으로써 Deepmark.ai를 통해 개발자는 문제를 사전에 해결하고 최적의 성능을 유지할 수 있습니다.
AI 개발 내에서 Ingestai Labs가 개발 한 Deepmark.ai 기술 통합 :
Deepmark.ai는 개발자에게 신뢰할 수있는 평가 지표, 비용 추정 및 최적화 권장 사항을 제공하여 예측 가능성 및 비용 효율성을 우선시합니다. 이를 통해 개발자는 정보에 입각 한 결정을 내릴 수있게되어 생성 AI 응용 프로그램 설계 및 배포와 관련된 위험을 줄일 수 있습니다.
Deepmark.ai는 데이터와 엄격함을 활용하여 조직이 생성 AI 모델을 평가할 때 직관에만 의존하지 못하게 할 수 있습니다. 이 데이터 중심의 접근 방식은 의사 결정 프로세스에 대한 신뢰를 불러 일으켜 AI 응용 프로그램 개발에서 정밀도와 정확성을 높일 수 있습니다.
Deepmark.ai가 신뢰성, 정확성, 관련성 및 비용 효율성을 종합적으로 평가할 수있는 능력은 AI 애플리케이션의 전반적인 품질을 향상시키는 데 기여합니다. 지속적인 모니터링 또는 정기적 인 평가를 통해 개발자는 모델의 성능 (예 : Metapromts 또는 미세 조정을 통해)을 반복적으로 향상시켜 최적의 성능과 사용자 만족을 보장 할 수 있습니다.
Ingestai는 바이어스 관련 상황, 실시간 탐지 및 편견 및 불안한 약속의 해상도의 훈련, 테스트 및 정제에 라벨을 붙이고 사용되는 다양한 대형 언어 모델의 7,500 만 개 이상의 다양한 요청 및 응답으로 구성된 독점 비교 데이터 세트를 기반으로 자체 바이어스 탐지 모델을 구축하기 위해 노력하고 있습니다. Deepmark AI는 AI 애플리케이션 개발자를위한 독점적 ML 모델 위에 구축 된 도구로 예측 가능성, 정확도, 비용 효율성 및 기타 벤치 마크 지표에 대한 안정적인 평가를 제공합니다. Deepmark AI는 안전, 진실성, 예측 가능성 및 비용 효율성을 우선시함으로써 개발자가 고품질 신뢰할 수있는 생성 AI 구동 응용 프로그램을 구축 할 수 있도록 권한을 부여합니다. Deepmark AI는 포괄적 인 기능과 혜택으로 생성 AI의 진정한 잠재력을 활용하려는 조직의 새로운 가능성을 열어줍니다.
Docker Image : https://hub.docker.com/r/embedditor/deepmark
Docker 웹 페이지에서 자세한 지침을 찾을 수 있습니다.
Laravel을 설치하십시오
PHP 장인 스토리지 : 링크
PHP 장인 대기열 : 테이블
PHP 장인 이주
.env에서 bearer_token을 설정하십시오
HTTP 헤더 "X-Bearer-Token"으로 p.5의 토큰을 사용하십시오.
Frontend를 설치하십시오
npm i 로 이동npm run dev 또는 프로덕션 버전의 npm run build 실행해야합니다.