무기고 검색을 촉진하십시오
저자 : 양 XI
NLP 논문 연구 참고 사항 : https://github.com/km1994/nlp_paper_study
개인 소개 : Big Guys, 내 이름은 Yang XI입니다.
NLP 다재다능하고 다재다능한 주소 : https://github.com/km1994/nlp-interview-notes
모든면 및 모든 종류의 주소가있는 권장 시스템 : https://github.com/km1994/res-interview-notes
ARMS 라이브러리의 홍보 및 검색 : https://github.com/km1994/recommendation_advertisement_search
공식 계정 [NLP에 대해 모르는 것]을 따르고 [NLP && 권장 학습 그룹]에 가입하여 함께 공부하십시오! ! !
1. 프로젝트
1.1 현재 업계에서 다운로드 할 수있는 일부 대형 모델
- chatgpt :
- https://openai.com/blog/chatgpt
- 경험 주소 : https://chat.openai.com/
- GLM-10B/130B
- 소개 : 이중 언어 (중국어 및 영어) 양방향 밀도 모델
- OPT-2.7B/13B/30B/66B :
- 소개 : 메타 오픈 소스 사전 훈련 된 언어 모델
- github : https://github.com/facebookresearch/metaseq
- 종이 : https://arxiv.org/pdf/2205.01068.pdf
- llama-7b/13b/30b/65b :
- 소개 : 메타 오픈 소스의 기본 대형 언어 모델
- github : https://github.com/facebookresearch/llama
- 종이 : https://arxiv.org/pdf/2302.13971v1.pdf
- 알파카 (llama-7b) :
- 소개 : Stanford는 강력한 재현 가능한 교육 후속 모델을 제안했습니다. 종자 작업은 모두 영어로되어 있습니다.
- github : https://github.com/tatsu-lab/stanford_alpaca
- 중국-엘라마-알파카 github : https://github.com/ymcui/chinese-llama-alpaca
- 벨 (Bloomz-7b/llama-7b) :
- 소개 :이 프로젝트는 Stanford Alpaca를 기반으로하며 Model Tuning은 Chatgpt (기타 데이터 없음) 만 사용합니다.
- chatglm-6b :
- 소개 : 중국어 및 영어 이중 언어 대화 언어 모델
- github : https://github.com/thudm/chatglm-6b/
- Bloom-7b/13b/176b :
- 소개 : 프랑스어, 중국, 베트남, 인도네시아, 카탈로니아어, 13 개의 인도 언어 (예 : 힌디어) 및 20 개의 아프리카 언어를 포함한 46 개 언어를 처리 할 수 있습니다. 그 중에서 Bloomz 시리즈 모델은 XP3 데이터 세트를 기반으로 미세 조정됩니다. 영어 프롬프트 (프롬프트)에 권장됩니다. 영어가 아닌 프롬프트 (프롬프트)에 권장됩니다.
- github : https://huggingface.co/bigscience/bloom
- 종이 : https://arxiv.org/pdf/2211.05100.pdf
- Vicuna (7B/13B) :
- 소개 : UC Berkeley, CMU, Stanford 및 UC San Diego의 연구원들이 만든 Vicuna-13B는 ShareGPT가 수집 한 사용자 공유 대화 데이터에서 LLAMA를 미세 조정하여 얻었습니다. 그중에서도 GPT-4는 평가에 사용되었으며 Vicuna-13B의 성능은 90% 이상에서 Chatgpt 및 Bard와 비슷한 기능을 달성했으며, 90%의 다른 모델보다 더 낫습니다. Vicuna-13B에 대한 교육 비용은 약 $ 300입니다. 뿐만 아니라 대형 언어 모델을 기반으로 챗봇을 교육, 서빙 및 평가할 수있는 개방형 플랫폼을 제공합니다. FastChat.
- Baize :
- 소개 : Bai Ze는 라마에 대한 훈련을 받았습니다. 현재 Bai ZE-7B, 13B, 30B (일반 대화 모델) 및 연구/비상업적 사용을위한 수직 필드 Bai Ze-Medical 모델의 4 가지 영어 모델이 포함되어 있으며 향후 중국 Bai ZE 모델을 발표 할 계획입니다. Bai ZE의 데이터 처리, 교육 모델 및 데모와 같은 모든 코드가 공개되었습니다.
- llmzoo :
- 소개 : 홍콩 중국 대학교와 Phoenix 및 Chimera 등과 같은 Shenzhen Big Data Research Institute 팀이 시작한 일련의 대형 모델 - Moss : Fudan NLP 팀이 시작한 Moss 대형 언어 모델.
- Alpaca Fastchat
- github : https://github.com/lm-sys/fastchat
- Minigpt-4
- github : https://github.com/vision-cair/minigpt-4
1.2 [LLMS 실용 시퀀스 시리즈 소개]
Tsinghua University Open Source Chinese Version ChatGLM-6B Model Learning and Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical Practical P 모델 학습 및 실용적인 전투 [LLMS 초보자 실용 전투 -8] Minigpt -4 모델 학습 및 실용적인 전투
1.3 NLP 프로젝트 무기고 학습
- 【지식 그래프 구성 DeepKG】 https://github.com/powercy/deepkg
- 소개 :이 프로젝트는 지식 그래프 구성에 전념하고 있으며 현재 방법을 조금씩 구축하고 있으며 더 많은 사람들을 돕기를 바랍니다.
1.4 권장 시스템 프로젝트 무기고 학습
- fun-rec ec https://github.com/datawhalechina/fun-rec
- 소개 : 기본 머신 러닝 파운데이션이 있고 권장 알고리즘 위치를 찾고자하는 학생들을 목표로합니다. 자습서는 추천 알고리즘 소개 경쟁, 뉴스 추천 프로젝트 및 추천 알고리즘으로 구성되어 기본에서 실용적으로 완전한 폐쇄 루프를 형성합니다.
- 【https://github.com/qcymkxyc/recsys를 재활용합니다
- 소개 : Xiang Liang의 "권장 시스템 실습"의 코드 구현
1.5 검색 엔진 프로젝트 무기고 학습
- [검색 엔진 프로젝트 오픈 소스] https://github.com/zuo369301826/search_project
- 프로젝트 소개 : 사이트 검색 엔진을 구현하려면 전체 프로젝트가 두 부분으로 나뉩니다. HTTP 서버 : HTTP 서버는 필요한 특정 정보를 얻기위한 요청을 얻은 다음 정보를 검색 서버를 기반으로 데이터를 검색하고 HTP 서버를 수신하고 결과를 얻습니다.
- 1. Google이 제공하는 Protobuf, GFLAG 및 GLOG와 같은 오픈 소스 프레임 워크를 사용합니다. HTTP 서버는 CGI의 검색 클라이언트를 호출하여 검색 기능을 완료합니다.
- 【탄성】 https://www.elastic.co/cn/
- 소개 : Elasticsearch는 다양한 사용 사례의 출현을 해결할 수있는 분산되고 편안한 스타일의 검색 및 데이터 분석 엔진입니다. 탄성 스택의 핵심에서는 데이터를 중앙에 저장하고 예기치 않은 예상치 못한 상황을 발견하는 데 도움이됩니다.
- Nutch】 http://nutch.sourceforge.net/docs/zh/about.html
- 소개 : Nutch는 방금 오픈 소스로 태어난 웹 검색 엔진입니다. 홈페이지에는 상세한 중국어 지침이 있습니다.
- Lucene】 http://jakarta.apache.org/lucene/docs/index.html
- 소개 : Apache Lucene은 Java 소프트웨어에 전체 텍스트 검색 기능을 쉽게 추가 할 수있는 오픈 소스 프로그램 크롤러 엔진입니다. Lucene의 주요 작업은 파일의 모든 단어를 색인화하는 것이 기존의 단어 별 비교에 비해 검색 효율성을 크게 향상시킵니다.
- 【egothor g http://www.egothor.org/
- 소개 : Egothor는 Java로 작성된 오픈 소스이며 효율적인 전문 검색 엔진입니다. Java의 크로스 플랫폼 기능을 사용하면 Egothor를 별도의 검색 엔진 및 전체 텍스트 검색으로서의 모든 환경의 응용 프로그램에 적용 할 수 있습니다.
- Oxyus us http://oxyus.sourceforge.net/
- 소개 : 순수한 자바에 쓴 웹 검색 엔진입니다.
- bddbot】 http://www.twmacinta.com/bddbot/
- 소개 : BDDBOT는 간단하고 이해하기 쉽고 검색 엔진을 사용합니다. 현재 텍스트 파일 (urls.txt)에 나열된 URL에 크롤링되어 결과를 데이터베이스에 저장합니다. 또한 브라우저에서 쿼리를 수락하고 응답 결과를 반환하는 간단한 웹 서버를 지원합니다. 웹 사이트에 쉽게 통합 될 수 있습니다.
1.6 광고 프로젝트를 계산 아스날 학습
- [Meituan DSP 광고 전략 실습] https://tech.meituan.com/2017/05/05/mt-dsp.html
- [인터넷 광고 및 계산 광고 소개] http://web.stanford.edu/class/msande239/
2. AI 아티팩트
- chatgpt ai 아티팩트
- 【ai artifact】 대화 ai— chatgpt https://999.weny66.cn/chat?bd_vid=11997231054327469370
- 【ai artifact】 gpt-4 온라인 경험 웹 사이트 chatmindai.cn
- 【ai 아티팩트】 chatgpt3.5는 중국에서 제공되는 무료 로그인 https://chat23.yqcloud.top/
- 최전방 채팅 채팅 .forefront.ai
- poe poe.com/gpt-4
- 3D AI 아티팩트
- 걸작 스튜디오 : https://xiaobot.net/p/superindividual
- 걸작 스튜디오 : https://masterpiecestudio.com
- g3dai {jedi} : https://g3d.ai
- ponzu : https://www.ponzu.gg
- Prometheanai : https://www.prometheanai.com
- Leonardo.ai : https://leonardo.ai
- 아트 AI 인공물
- Dream Up (Deviant Art) : https://www.dreamup.com
- NightCafe Studio : https://creator.nightcafe.studio
- Midjourney : https://www.midjourney.com/home/
- artbreeder : https://www.artbreeder.com
- WOMBO : https://www.wombo.art
- 오디오 편집 AI 아티팩트
- 팟 캐스트 : 편집 https://podcastle.ai
- CleanVoice : 오디오 편집 https://cleanvoice.ai
- 코드 어시스턴트 AI 아티팩트
- Codesquire https://codesquire.ai
- 빌드 코드 어시스턴트 https://www.buildt.ai
- 이봐, github! 코드 어시스턴트 https://githubnext.com/projects/hey-github
- 지속적인 업데이트
3. Xiaobai AI 소개
3.1 머신 러닝 소개
- [Wu Wanda 기계 학습 시리즈 코스] https://www.bilibili.com/video/bv164411b7dx?from=search&seid=18138466354258018449&spm_id_from=3337.0.0
3.2 NLP로 시작합니다
- [2021 ng 딥 러닝 -NLP 시퀀스 모델] https://www.bilibili.com/video/bv1co4y1279r?from=search&seid=17563746002586971760&spm_id_from=3337.0.0.0.0
- 【지식 그래프 소개】
- Zhejiang University Map 강의 노트 |
- Zhejiang University Map 강의 노트 |
- 그래프 강의 노트 |. 강의 1- 섹션 3- 지식의 가치 그래프
- 그래프 강의 노트 |. 강의 1- 섹션 4- 지식의 기술적 의미 그래프 그래프
- 그래프 강의 노트 |. 강의 2- 섹션 1- 지식 표현이란?
3.3 컴퓨팅 광고를 시작하는 것
- [인터넷 광고 및 계산 광고 소개] http://web.stanford.edu/class/msande239/
- 강의 1 : 소개, 보충 메모
- 강의 2 : 마켓 플레이스 디자인, 수업장, 보충 노트
- 강의 3 : 수업 프레젠테이션에서 후원 검색 1
- 강의 4 : 수업 프레젠테이션에서 후원 검색 2
- 강의 5 : 수업 프레젠테이션에서 광고 1 디스플레이 1
- 강의 6 : 수업 프레젠테이션에서 광고 2 디스플레이
- 강의 7 : 수업 프레젠테이션에서 타겟팅
- 강의 8 : 추천 시스템, 수업 프레젠테이션 1, 수업 프레젠테이션 2
- 강의 9 : 수업 프레젠테이션 1의 모바일, 비디오 및 기타 신흥 형식, 수업 프레젠테이션 2
- [Liu Peng - 컴퓨터 광고 (권장)] http://study.163.com/course/introduction.htm?courseid=321007
- 소개 : Liu Peng 교사는 현재 360 년 상업용 제품의 최고 건축가로 활동하고 있으며 인터넷 광고 분야에서 풍부한 경험을 가지고 있습니다. "컴퓨터 광고"의 내용은 광고 기록 모델에서 최근 기술에 이르기까지 이해하기 쉽습니다.
- 광고에 대한 기본 지식
- 계약 광고 시스템
- 청중 타겟팅
- 입찰 광고 시스템
- 검색 광고 및 광고 네트워크 수요 기술
- 광고 시장
- Baidu - 컴퓨터 광고】 http://openresearch.baidu.com/courses/1231.jhtml
- 계산 광고 개요
- 검색 엔진 광고 원칙, 기술 및 엔지니어링 관행
- 컨텐츠 일치 광고 원칙, 기술 및 관행
- [Wang Yongrui - 인터넷 광고 알고리즘 및 시스템 실습] http://yuedu.baidu.com/ebook/3e31c551964bcf84b9d57bc0.html
- 소개 : Wang 교사는 Taobao의 대상 광고 알고리즘을 담당하는 사람입니다. 이 과정은 광고 이론에서 체계적인 기술 실습에 이르기까지 Taobao의 광고 실습 경험을 결합하며 기술자의 학습에 매우 합당합니다.
- 인터넷 광고 소개
- 검색 광고
- 대상 광고
- 실시간 광고 입찰
- 광고 시스템 아키텍처 및 도전
- 【UCS- 계산 광고 소개】 http://classes.ue.ucsc.edu/ism293/spring09/index_archivos/page456.html
- 소개 및 개요
- 계산에 대한 정보 검색 (IR)
- 마켓 플레이스 디자인
- 기계 학습 기술
- 후원 된 검색 i
- 후원 된 검색 II
- 그래픽 광고 및 보장 된 전달
- 상황에 맞는 광고 i
- 상황에 맞는 광고 ii
- 행동 타겟팅 (BT)
4. 논문 검색 및 연구 노트 홍보
- 【NLP 학습 노트】
- 【변신 로봇】
- 【효율적인 변압기에 대한 : 설문 조사】 모르는 것들
- Bert 모델 압축】
- 【자체 훈련 + 사전 훈련에 대한 = 더 나은 자연어 이해 모델】 모르는 것들
- bert to textcnn에 대한】】 모르는 것들
- 【명명 된 엔티티 인식】
- nested 중첩 엔티티 인식에 대한 Biaffine】 모르는 것들
- Biaffine의 Papershape
- 최근 몇 년 동안 PaperShape의 명명 된 엔티티 인식에 대한 인벤토리
- 【모르는 것들에 대한 지속적인 학습에 대해
- 【관계 추출 action
- HBT 관계 추출에 대한】】 모르는 것들
- 처음부터 관계 추출
- 처음부터 관계 추출 - 원격 감독 공격
- [문서 수준 관계 추출]
- Atlop에 대해 at 모르는 것들
- 논문 요약 |. 문서 수준 관계 추출 방법 (1 부)
- 논문 요약 |. 문서 수준 관계 추출 방법 (2 부)
- 【텍스트 매치】
- ∎ 문장에 대해】】 모르는 것들
- Facebook : FAISS 원칙 + 수백만 개의 벡터 유사성 검색 라이브러리의 응용 프로그램
- 새로운 문장 벡터 솔루션 실용적 기록
- 【상태 체인 참조 reference
- 【텍스트 오류 수정 error
- gector gector에 대해 ector 모르는 것들
- 【Q & A 로봇】
- Topicshare 공유 장면 기반 및 검색 기반 Q & A 로봇
- 【대화 시스템 system
- "】 커뮤니티는 says RASA 3.0에 대해 이야기합시다."불완전한 메모
- (i) 대화 로봇의 개요
- (ii) RASA 오픈 소스 엔진 소개
- (iii) RASA NLU 언어 모델
- (iv) RASA NLU 워드 세그먼트
- (v) RASA NLU 기능 생성기
- (vi) RASA NLU 의도 분류기
- (vii) RASA NLU 엔티티 추출기
- (9) RASA 사용자 정의 파이프 라인 구성 요소
- (10) RASA 핵심 정책
- (11) RASA 핵심 행동
- (12) RASA 도메인
- (13) RASA 교육 데이터
- (14) RASA 이야기
- (15) RASA 규칙
- (16) RASA 모범 사례
- (17) RASA를 기반으로 중국 로봇을 시작하십시오
- (18) RASA를 기반으로 중국 로봇 구현 메커니즘 시작
- (19) 지식 그래프 (KBQA)를 기반으로 한 질문 및 답변 시스템
- (20) 읽기 이해에 기초한 Q & A 시스템
- 다이어트 : 이중 의도 및 엔티티 변압기 - RASA 용지 번역
- (21) RASA 응용 프로그램의 FAQ
- (22) RASA의 하이퍼 파라미터 최적화
- (23) 로봇 테스트 및 평가
- (24) RASA 양식을 사용하여 컨텍스트 대화 보조원을 만듭니다
- 【kbqa b
- ∎ 복잡한 KBQA에 대한 정보】 모르는 것들 (1 부)
- ∎ 복잡한 KBQA에 대해】 모르는 것 (중국어)
- ∎ 복잡한 KBQA에 대한 정보】 모르는 것들 (2 부)
- 【이벤트 추출 action
- 【프롬프트 튜닝 ing
- 【새로운 단어 발견 word
- 나만의 PTM을 구축하십시오! 새로운 단어 마이닝 + 사전 훈련
- 【텍스트에게 SQL】
- SQL에 텍스트를 보내시겠습니까? 다음은 기준 분석입니다
- 【권장 시스템 연구 노트】
- 권장 시스템 기술 진화 트렌드 : 리콜
- 권장 시스템 기술 진화 추세 : 정렬
- 권장 시스템 기술 진화 추세 : 재 배열
- 권장 시스템은 어떻게 비슷한 사용자를 찾습니까?
- 10 만 단어의 긴 기사는 대화 추천 시스템의 논리와 진화에 대해 자세히 설명합니다.
- 권장 시스템에서 모델 적응의 관련 기술 요약
- 【GCN 학습 노트】
- [광고 논문 및 데이터 목록 계산 github repo]
- 세 가지 주요 관점, 내 눈의 광고 시스템에 대해 이야기하십시오.
- [권장 시스템 논문 및 데이터 목록 Github Repo]
- 【검색 엔진】
- Baidu 검색에서 웹 스케일 검색을위한 PLM 정보】 모르는 것
- EMNLP 2021 |.
5. 검색 기사를 홍보하십시오
- 【NLP 다재다능하고 다재다능한】
- 【머신 러닝】
- 【정규화에 관한 ization 모르는 것들
- 【최적화 알고리즘에 대한】 모르는 것들
- batchnorm vs layernorm에 대해】】 모르는 것들
- ∎ 정규화에 대한 ization ization 모르는 것들
- 【과적으로 적합하고 부적합한】 모르는 것들
- 【딥 러닝】
- CNN에 대해 c c 모르는 것들
- 【주의에 대한】】 모르는 것들
- 【변압기에 대해 er 모르는 것 (1 부)
- 【변압기에 대해 er 모르는 것 (중국어)
- 【변압기에 대해 er 모르는 것 (2 부)
- 【NLP 작업】
- preceated 사전 치료 모델 r
- tf-idf에 대해】 모르는 것들
- Word2Vec에 대해】 모르는 것들
- 【FASTTEXT에 대해 fast 모르는 것들
- Elmo에 대해 el el 모르는 것들
- ∎ 버트 소개 ert 모르는 것 (1 부)
- ∎ 버트 소개 ert 모르는 것들 (2 부)
- Bert 소스 소스 코드 분석에 대해 I의 본체】 모르는 것
- Bert 소스 소스 코드 분석 II 사전 훈련 장에 대해 모르는 것
- Bert 소스 소스 코드 분석 III 미세 조정 장에 대해 모르는 것들
- [Bert 소스 코드 분석 정보 IV 문장 벡터 생성 기사]
- 【Bert의 더 큰 것에 대해, 더 세련된 시퀀스】 모르는 것 (i)
- ∎ Bert의 더 큰 것에 대해, 더 세련된 시퀀스】 모르는 것들 (ii)
- 【Bert의 더 큰 것에 대해, 더 세련된 시퀀스】 모르는 것들 (iii)
- 【새로운 단어 발견 word
- 【키워드 추출 word
- Keyword 키워드 추출에 대해】 모르는 것들
- 【Keybert에 대해 key 모르는 것들
- 【모든면이있는 권장 시스템】
- 계속하기 위해
6. 프레임 워크
6.1 Pytorch Learning
- Pytorch 영어 버전 공식 설명서】 https://pytorch.org/tutorials/
- 소개 : Pytorch 영어 버전 공식 설명서 : https://pytorch.org/tutorials/. 영어가 좋은 학생들에게는이 Pytorch 공식 문서가 적극 권장되므로 시작부터 마스터 링까지 단계적으로 진행할 수 있습니다. 이 문서는 Pytorch와 Pytorch 구문 및 일부 고품질 사례를 사용하여 깊은 신경망을 구축하는 방법에 대한 기본 사항을 자세히 설명합니다.
- [Pytorch 중국 공식 문서] https://pytorch-cn.readthedocs.io/zh/latest/
- 소개 : Pytorch 중국 공식 문서 : https://pytorch-cn.readthedocs.io/zh/latest/. 위에서 언급 한 영어 문서를 읽는 데 어려움이있는 경우에는 Pytorch에서보다 공식적인 중국어 문서를 준비했습니다.
- [실제 알고리즘에 대한 Pytorch 코드 자습서] https://github.com/yunjey/pytorch-tutorial
- 소개 : 이것은 알고리즘에서 더 실용적인 Pytorch 코드 튜토리얼입니다. 이 문서를 읽기 전에 위의 두 가지 기본 Pytorch 튜토리얼을 배우는 것이 좋습니다.
- pytorch 오픈 소스 책】 https://github.com/zergtant/pytorch handbook
- 소개 : 오픈 소스 책 소개 : https://github.com/zergtant/pytorch handbook. 이 책은 딥 러닝 개발 및 연구를 위해 Pytorch를 원하고 사용하는 사람들을 돕기 위해 오픈 소스 책입니다. 그러나이 문서는 그다지 완전하지 않으며 여전히 업데이트되고 있습니다.
- [ "핸드 온 딥 러닝"Pytorch] http://tangshusen.me/dive-into-dl-pytorch/#/
- pytorch 모델 교육에 대한 실용 자습서】 https://github.com/km1994/pytorch_tutorial
- Pytorch Advanced NLP 실제 실무】 https://github.com/km1994/nlp_pytorch_project
- ARK-NLP NLP 도구 라이브러리】 https://github.com/xiangking/ark-nlp
- 소개 : Wang Xiang의 오픈 소스 Arsenal은 주로 학업 및 작업에서 일반적으로 사용되는 NLP 모델을 수집하고 재현하는 데 사용됩니다.
6.2 텐서 플로우 학습
- Tensorflow 공식 웹 사이트 https://www.tensorflow.org/tutorials
- 소개 : 공식 웹 사이트 튜토리얼은 확실히 가장 향기로운 학습 자료입니다.
- tensorflow 예제】 https://github.com/aymericdamien/tensorflow-examples
- 소개 : 초보자를위한 Tensorflow 튜토리얼 및 코드 예제 : https://github.com/aymericdamien/tensorflow-examples. 이 튜토리얼은 일부 고전적인 데이터 세트를 제공 할뿐만 아니라 가장 간단한 "Hello World", 기계 학습을위한 고전적인 알고리즘에 이르기까지 신경 네트워크에 일반적으로 사용됩니다.
- Tensorflow 자습서】 https://github.com/pkmital/tensorflow_tutorials
- 소개 : Tensorflow의 기본 사항에서 흥미로운 프로젝트 응용 프로그램에 이르기까지 https://github.com/pkmital/tensorflow_tutorials. 또한 설치에서 프로젝트 실무에 이르기까지 자신의 신경망을 구축하도록 가르치기 위해 초보자를위한 튜토리얼입니다.
- Jupyter 노트북을 사용한 Tensorflow 튜토리얼 https://github.com/sjchoi86/tensorflow-101
- 소개 : Jupyter 노트북을 사용하여 Python으로 작성된 Tensorflow 튜토리얼 : https://github.com/sjchoi86/tensorflow-101. 이 튜토리얼은 Jupyter Notebook 개발 환경을 기반으로하는 Tensorflow 튜토리얼입니다. Jupyter Notebook은 40 개 이상의 프로그래밍 언어를 지원할뿐만 아니라 코드, 데이터 시각화, 지원 Markdown 등을 지원할 수 있습니다.
- tensorflow_exercises】 https://github.com/terryum/tensorflow_exercises
- 소개 : Tensorflow 코드 연습 : https://github.com/terryum/tensorflow_exercises. 텐서 플로 코드 연습 매뉴얼에서 쉽게 어려운 것까지. Tensorflow를 공부하는 친구에게 매우 적합합니다.
- 【다운 스트림 작업에서 Bert 및 Albert의 응용 https://github.com/km1994/bert-for-task
6.3 Keras Learning
- bert4keras】 https://github.com/bojone/bert4keras
- 소개 : 변압기 모델 라이브러리의 케라 버전 인 Sushen의 오픈 소스 Arsenal은 변압기와 Keras와 Keras를 상쾌한 코드와 결합하기 위해 최선을 다하고 있습니다.
6.4 분산 교육 프레임 워크 학습
- 첫 번째 범주 : 딥 러닝 프레임 워크와 함께 제공되는 분산 교육 기능. 예를 들어 : Tensorflow, Pytorch, Mindspore, Oneflow, Paddlepaddle 등
- 두 번째 범주 : 기존 딥 러닝 프레임 워크 (Pytorch, Flax)를 기반으로 스케일링 및 최적화를 수행하여 분산 교육을 수행합니다. 예를 들어 : Megatron-LM (텐서 병렬), 딥 스피드 (Zero-DP), Colossal-AI (2D, 2.5D, 3D), ALPA (자동 평행) 등
7. 경쟁
5.1 국내 경쟁
- [Iflytek 개발자 경쟁] http://challenge.xfyun.cn/
- Ali Tianchi】 https://tianchi.aliyun.com/
- biendata ata https://www.biendata.xyz/
- Datafountain f https://www.datafountain.cn/
- Baidu 패들 패들】 https://aistudio.baidu.com/
5.2 경쟁 공식 계정
- Mapo 두부 ai】
- 소개 : 참여할 수있는 최근 이벤트를 소개합니다.
5.3 NLP 경쟁 무기고
- [NLP 아스날 도구 라이브러리] https://github.com/tingfree/nlper-arsenal
- 소개 : NLP 경쟁 전략 구현, 다양한 작업 자습서, 경험 게시물, 학습 자료 및 회의 시간이 포함 된 NLP Arsenal.
- Clinical 임상 용어로 표준화 된 작업을위한 Chip2021-Task3-Open 소스 솔루션】
- Github 소스 코드
- 평가 웹 사이트 : http://cips-chip.org.cn/2021/eval3
- 모든 코드는 오픈 소스 ARK-NLP 구현을 기반으로합니다. Chip2021의 임상 용어 표준화 작업에 대한 목록은 없으므로 코드 디버깅은 Tianchi의 중국 의료 정보 처리 데이터 세트 인 CBLUE의 임상 용어 표준화 작업에서 완료됩니다.
- ARK-NLP 주소 : https://github.com/xiangking/ark-nlp
- 중국 의료 정보 처리 데이터 세트 CBLUE : https://tianchi.aliyun.com/dataset/datadetail?dataid=95414
- [Chip2021 의료 대화 임상 발견 음양 차별 작업 챔피언 오픈 소스 계획]
- Github 소스 코드
- 이름 : CBLUE : 중국 생물 의학 언어 이해 평가 벤치 마크
- 평가 과제 : CBLUE 1.0은 의료 텍스트 정보 추출 (실체 인식, 관계 추출), 의료 용어 정규화, 의료 텍스트 분류, 의료 문장 관계 판단 및 총 8 개의 하위 작업을 포함한 ALI Quark Medical Search Business의 이전 학업 평가 경쟁의 데이터 세트로 구성됩니다.
- 작업 유형 : 텍스트 분류, 텍스트 유사성, 명명 된 엔티티 인식, 관계 추출 및 용어 표준화 (컨텍스트없이 작업을 연결하는 엔티티로 간주 될 수 있음)
- 평가 링크 : https://tianchi.aliyun.com/dataset/datadetail?dataid=95414
- CBLUE-ALI TIANCHI 중국 의료 NLP 순위 기준】 https://github.com/dataark/cblue-baseline
- [Shandong Big Data Competition-Grid Event Intelligent Classification Baseline] https://github.com/xiangking/shandongdatacompetition2021-grid-events-classification-baseline
- 평가 과제 : 그리드 이벤트 데이터를 기반으로 그리드의 이벤트 내용을 추출 및 분석하고 이벤트 범주를 나누고 이벤트가 속한 정부 업무 유형을 나눕니다.
- 작업 유형 : 텍스트 분류
- 평가 링크 : http://data.sd.gov.cn/cmpt/cmptdetail.html?id=67
8. 코퍼스
8.1 NLP 재료
- nlp_chinese_corpus】 https://github.com/brightmart/nlp_chinese_corpus
8.2 권장 시스템 견적
- movielens ens https://grouplens.org/datasets/movielens/
- 소개 : Movielens 데이터 세트는 미네소타 대학교의 Grouplens Research Group (데이터 세트 사용과 관련이없는)에 의해 구성되었습니다. Movielens는 다양한 크기로 제공되는 영화 등급의 모음입니다. 데이터 세트는 1, 10 및 20m 등급을 포함하기 때문에 1m, 10m 및 20m입니다. 가장 큰 데이터 세트는 약 140,000 명의 사용자의 데이터를 사용하며 27,000 개의 영화를 다룹니다. Movielens 데이터에는 등급 외에도 "Western"과 유사한 장르 정보와 "Over the Top"및 "Arnold Schwarzenegger"와 같은 사용자 애플리케이션에 대한 태그가 포함되어 있습니다. 이 장르 태그와 레이블은 콘텐츠 벡터를 구축하는 데 유용합니다. 컨텐츠 벡터는 색상, 모양, 장르 또는 기타 속성과 같은 항목의 정보를 실제로 인코딩합니다. 실제로 컨텐츠 기반에 대한 권장 알고리즘의 형태 일 수 있습니다.
- Book-Crossings】
- 소개 : Book-Crossings는 http://bookcrossing.com의 데이터를 기반으로 Cai-Nicolas Ziegler가 작성한 책 등급 데이터 세트입니다. 90,000 명의 사용자 중 270,000 권의 책에 대한 110 만 등급이 포함되어 있습니다. 점수는 1에서 10까지이며 또한 암시 적 점수도 포함됩니다.
- last.fm. http://www2.informatik.uni-freiburg.de/~cziegler/bx/
- 소개 : Last.fm은 음악 추천을위한 데이터 세트를 제공합니다. 데이터 세트의 각 사용자마다 가장 인기있는 아티스트 목록과 연극 수가 포함되어 있습니다. 또한 콘텐츠 벡터를 구축하는 데 사용할 수있는 사용자 애플리케이션 태그도 포함되어 있습니다.
- Dating Dating Agency agency (http://www2.informatik.uni-freiburg.de/~cziegler/bx/)
- 소개 :이 데이터 세트에는 2006 년 4 월 4 일에 135,359 명의 Libimseti 사용자가 168,791 개의 구성 파일에 대한 17,359,346 개의 익명 등급이 포함되어 있습니다.
- 기타 : https://zhuanlan.zhihu.com/p/258566760
8.3 라벨링 도구
- 엔티티 관계 주석기를 찾지 못할까 걱정하고 있습니까?
- https://labelstud.io/
- Doccano
9. 공식 계정 장
- NLP에 대해 모르는 것들
- CS의 겸손한 방
- 소개 : char siu 보스의 경험을 공유하는 게시물 문제가 발생하면 예상치 못한 이익이있을 수 있습니다.
- Dataark
- 소개 : DataARK는 데이터 중심 및 오픈 소스 공유 지향이며 데이터 마이닝, 알고리즘 혁신 및 실제 도구 개발에 전념하고 있습니다.
- 지능적인 추천 시스템
- 소개 : 지능형 추천 시스템에 중점을 둔 최신의 가장 포괄적 인 개인화 된 추천 관련 알고리즘 및 산업 응용 프로그램 공유는 추천의 바다에서 오신 것을 환영합니다.
- DataFuntalk
- 소개 : 빅 데이터 및 인공 지능 기술 응용 프로그램의 공유 및 커뮤니케이션에 중점을 둡니다. 수백만 명의 데이터 과학자를 달성하기 위해 노력했습니다.定期组织技术分享直播,并整理大数据、推荐/搜索算法、广告算法、NLP自然语言处理算法、智能风控、自动驾驶、机器学习/深度学习等技术应用文章。
- RUC Al Box
- 介绍:本公众号主要关注使用人工智能技术来解决自然语言处理与社交媒体数据挖掘的研究内容。分享Al前沿,解读热点论文。
- NewBeeNLP
- 开放知识图谱
- WeData365
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 科学空间
- 介绍:苏神的公众号,每周四苏神都会开源他的研究笔记。
- 老刘说NLP
- 介绍:360人工智能研究院大佬刘焕勇刘大佬的公众号,定期发布语言资源、工程实践、技术总结等内容。
- 数据拾光者
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 泛函的范
- 计算广告那些事
- 介绍:学习【广告】 的小伙伴一定要关注,因为有很多【广告】 干货分享
- 药老算法
- 介绍:学习【搜索引擎】 的小伙伴一定要关注,因为有很多【搜索引擎】 干货分享
- 机器学习算法与自然语言处理
- 介绍:一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
- 王喆的机器学习笔记
- AINLP
- 介绍:关注AI、NLP、机器学习、推荐系统、计算广告等相关技术。公众号可直接对话双语聊天机器人,尝试自动对联、作诗机、藏头诗生成器,调戏夸夸机器人、彩虹屁生成器,使用中英翻译,查询相似词,测试NLP相关工具包。
- 李rumor
- 夕小瑶的卖萌屋
- 介绍:自然语言处理、计算机视觉、信息检索、推荐系统、机器学习
十、学习笔记
- 科学空间:
- 地址:https://spaces.ac.cn/
- 介绍:苏神经验学习笔记分享
- 魔法学院的Chilia
- 地址:https://www.zhihu.com/people/wang-zi-han-81-18/posts
- 方向:推荐系统| 广告| 搜索| NLP
- 水哥
- 地址:https://www.zhihu.com/people/shui-ge-99
- 方向:推荐系统
- JayJay
- 地址:https://www.zhihu.com/people/lou-jie-9
- 我想了很多事
- 地址:https://www.zhihu.com/people/yuan-chao-yi-83
十一、部署笔记
- Bert与TensorRT部署手册,享受丝滑的顺畅
参考
- 关于大模型实践的一些总结