您的法學碩士值得更好的投入。
讀者做了兩件事:
閱讀:它將任何 URL 轉換為LLM 友好的輸入https://r.jina.ai/https://your.url 。免費提高代理程式和 RAG 系統的輸出。
搜尋:它使用https://s.jina.ai/your+query在網路上搜尋給定的查詢。這使您的法學碩士能夠從網路獲取最新的世界知識。
查看現場演示
或只需造訪這些 URL(閱讀)https://r.jina.ai/https://github.com/jina-ai/reader,(搜尋)https://s.jina.ai/Who%20will% 20win %202024%20US%20presidential%20election%3F 看看你自己。
請隨意在生產中使用 Reader API。它是免費、穩定且可擴展的。我們正在積極維護它作為吉納人工智慧的核心產品之一。查看速率限制


2024-10-08 :推出adaptive crawler 。它可以遞歸地抓取網站並提取給定網頁最相關的頁面。
2024-07-15 : 若要將s.jina.ai的結果限製到特定網域/網站,您可以在查詢參數中設定例如site=jina.ai ,這將啟用站內搜尋。如需更多選項,請嘗試我們更新的現場演示。
2024-07-01 :我們解決了自 6 月 27 日以來的 DDoS 攻擊和其他流量濫用問題。我們還發現 6 月 28 日引入的一個錯誤可能會導致某些網站出現更高的延遲。攻擊和bug已經解決;如果您在 6 月 27 日至 30 日期間經歷過 r.jina.ai 的高延遲,現在應該會恢復正常。
2024-05-30 :讀者現在可以從任何 URL 閱讀任意 PDF!查看來自 NASA.gov 的 PDF 結果與原始結果。
2024-05-15 :我們引入了一個新的端點s.jina.ai ,它可以在網路上搜尋並返回前 5 個結果,每個結果都採用 LLM 友善的格式。請在此處閱讀有關此新功能的更多資訊。
2024-05-08 :預設情況下,影像字幕處於關閉狀態,以獲得更好的延遲。要開啟它,請在請求標頭中設定x-with-generated-alt: true 。
2024-05-03 : 我們終於解決了 4 月 29 日以來的 DDoS 攻擊。現在我們的 API 比以往更加可靠和可擴展!
2024-04-24 :您現在可以使用標頭對 Reader API 進行更細粒度的控制,例如使用 HTTP 代理轉送 cookie。
2024-04-15 : 閱讀器現在支援圖像閱讀了!它為指定 URL 處的所有圖像添加標題,並添加Image [idx]: [caption]作為 alt 標記(如果它們最初缺少 alt 標記)。這使得下游法學碩士能夠在推理、總結等方面與圖像進行互動。
r.jina.ai進行單一 URL 獲取只需在任何 URL 前面添加https://r.jina.ai/即可。例如,要將 URL https://en.wikipedia.org/wiki/Artificial_intelligence轉換為 LLM 友善的輸入,請使用下列 URL:
https://r.jina.ai/https://en.wikipedia.org/wiki/Artificial_intelligence
r.jina.ai進行完整的網站抓取(Google Colab)s.jina.ai進行網路搜索只需將https://s.jina.ai/添加到您的搜尋查詢中即可。請注意,如果您在程式碼中使用此內容,請確保首先對您的搜尋查詢進行編碼,例如,如果您的查詢是Who will win 2024 US presidential election?那麼你的網址應該是這樣的:
https://s.jina.ai/Who%20will%20win%202024%20US%20presidential%20election%3F
在幕後,Reader 搜尋網絡,獲取前 5 個結果,訪問每個 URL,並將r.jina.ai應用於它。這與代理/RAG 框架中的許多web search function-calling不同,後者通常只會傳回搜尋引擎 API 提供的標題、URL 和描述。如果您想更深入地閱讀某個結果,則必須自行從該 URL 取得內容。透過 Reader, http://s.jina.ai會自動為您從前 5 個搜尋結果 URL 中取得內容(重複使用http://r.jina.ai背後的技術堆疊)。這意味著您不必自己處理瀏覽器渲染、阻塞或任何與 JavaScript 和 CSS 相關的問題。
s.jina.ai進行站內搜索只需在查詢參數中指定site ,例如:
捲曲 'https://s.jina.ai/When%20was%20Jina%20AI%20founded%3F?site=jina.ai&site=github.com'
我們強烈建議使用程式碼產生器來探索 Reader API 的不同參數組合。

如您在上面所看到的,可以使用請求標頭控制 Reader API 的行為。這是支援的標頭的完整列表。
您可以透過x-with-generated-alt: true標頭啟用圖像標題功能。
您可以要求 Reader API 透過x-set-cookie標頭轉送 cookie 設定。
請注意,帶有 cookie 的請求不會被快取。
您可以透過x-respond-with標頭繞過readability過濾,具體來說:
x-respond-with: markdown返回 markdown而不經過reability
x-respond-with: html返回documentElement.outerHTML
x-respond-with: text傳回document.body.innerText
x-respond-with: screenshot回網頁截圖的URL
您可以透過x-proxy-url標頭指定代理伺服器。
您可以透過x-cache-tolerance標頭(以秒為單位的整數)自訂快取容錯性。
您可以透過x-no-cache: true標頭(相當於x-cache-tolerance: 0 )繞過快取頁面(生命週期 3600 秒)。
如果您已經知道目標頁面的 HTML 結構,則可以指定x-target-selector或x-wait-for-selector來指示 Reader API 專注於頁面的特定部分。
透過將x-target-selector標頭設定為 CSS 選擇器,Reader API 將傳回符合元素中的內容,而不是完整的 HTML。當自動內容提取無法捕獲所需內容並且您可以手動選擇正確的目標時,設定此標頭非常有用。
透過將x-wait-for-selector標頭設定為 CSS 選擇器,Reader API 將等到符合的元素呈現後再返回內容。如果您已經指定了x-wait-for-selector ,並且您打算等待相同的元素,則可以省略此標頭。
r.jina.ai進行單頁應用程式 (SPA) 抓取如今許多網站都依賴 JavaScript 框架和客戶端渲染。通常稱為單頁應用程式 (SPA)。由於 Puppeteer 和無頭 Chrome 瀏覽器,Reader 本身就支援取得這些網站。然而,由於某些 SPA 開發的特定方法,可能需要採取一些額外的預防措施。
根據 Web 標準的定義,URL 中#之後的內容不會傳送到伺服器。若要緩解此問題,請在正文中使用帶有url參數的POST方法。
捲曲 -X POST 'https://r.jina.ai/' -d 'url=https://example.com/#/route'
一些 SPA,甚至一些嚴格來說不是 SPA 的網站,可能會在稍後動態加載主要內容之前顯示預先加載內容。在這種情況下,Reader 可能會捕獲預先載入內容而不是主要內容。為了緩解這個問題,以下是一些可能的解決方案:
x-timeout當明確指定逾時時,Reader 將不會嘗試提前返回,而是等待網路空閒,直到達到逾時。當目標網站最終出現網路空閒時,這非常有用。
捲曲 'https://example.com/' -H 'x-timeout: 30'
x-wait-for-selector當明確指定 wait-for-selector 時,Reader 將等待指定 CSS 選擇器的出現,直到達到逾時。當您確切知道要等待哪個元素時,這非常有用。
捲曲 'https://example.com/' -H 'x-wait-for-selector: #content'
當您發現標準模式提供的結果不完整時,流模式就非常有用。這是因為 Reader 會等待更長的時間,直到頁面穩定呈現。使用accept-header來切換串流模式:
捲曲-H「接受:文字/事件流」 https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page
資料以流的形式出現;每個後續區塊都包含更完整的資訊。最後一個區塊應該提供最完整和最終的結果。如果您來自法學碩士,請注意,這是與法學碩士的文本生成流不同的行為。
例如,比較下面這兩個curl 指令。您可以看到串流模式最終為您提供了完整的信息,而標準模式則不然。這是因為該特定網站上的內容載入是在頁面完全載入後由某些 js 觸發的,而標準模式「太快」返回頁面。
curl -H 'x-no-cache:true' https://access.redhat.com/security/cve/CVE-2023-45853 curl -H「接受:text/event-stream」-H 'x-no-cache:true' https://r.jina.ai/https://access.redhat.com/security/cve/CVE-2023 -45853
注意:
-H 'x-no-cache: true'僅用於演示目的以繞過快取。
如果您的下游 LLM/代理系統需要立即交付內容或需要分塊處理資料以交錯 I/O 和 LLM 處理時間,則流模式也很有用。這允許更快的存取和更有效的數據處理:
Reader API: streamContent1 ----> streamContent2 ----> streamContent3 ---> ...
| | |
v | |
Your LLM: LLM(streamContent1) | |
v |
LLM(streamContent2) |
v
LLM(streamContent3)請注意,就完整性而言: ... > streamContent3 > streamContent2 > streamContent1 ,每個後續區塊都包含更完整的資訊。
這還為時過早,結果並不是真正「有用」的 JSON。它僅包含三個字段url 、 title和content 。儘管如此,您可以使用accept-header來控制輸出格式:
curl -H「接受:application/json」 https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page
JSON 模式在s.jina.ai可能比r.jina.ai更有用。對於 JSON 模式的s.jina.ai ,它以列表形式傳回 5 個結果,每個結果的結構為{'title', 'content', 'url'} 。
該頁面中缺少alt標籤的所有圖像都可以由 VLM(視覺語言模型)自動添加標題,並格式化為!(Image [idx]: [VLM_caption])[img_URL] 。這應該為您的下游純文本法學碩士提供足夠的提示,將這些圖像納入推理、選擇和總結中。使用 x-with- generated-alt 標頭來切換流模式:
捲曲-H“X-With-Generate-Alt:true” https://r.jina.ai/https://en.m.wikipedia.org/wiki/Main_Page
您將需要以下工具來運行該專案:
Node v18(Node 版本 >18 的建置失敗)
Firebase CLI ( npm install -g firebase-tools )
對於後端,請前往backend/functions目錄並安裝 npm 依賴項。
git clone [email protected]:jina-ai/reader.gitcd 後端/函數 npm 安裝
thinapps-shared子模組是什麼?您可能會注意到對thinapps-shared子模組的引用,這是我們用來在產品之間共用程式碼的內部套件。雖然它不是開源的,也不是 Reader 功能的組成部分,但它主要有助於裝飾器、日誌記錄、秘密管理等。
也就是說,這是https://r.jina.ai背後的單一程式碼庫,因此每次我們在這裡提交時,我們都會將新版本部署到https://r.jina.ai 。
請針對您遇到問題的 URL 提出問題。我們將調查並嘗試修復它。
Reader 由 Jina AI 支援並在 Apache-2.0 下獲得許可。