无缝的RSS搜索引擎体验,带有机器学习的提示。
可以在https://davidesantangelo.gumroad.com/l/nkyymb下载数据库的SQL转储,其中一年多的300万个条目可下载超过300万个条目。
dato.rss处于Beta,可能会在不久的将来看到许多变化。
如果您有评论或建议,请使用“问题”选项卡发送给我们。
感谢您尝试Beta!
搜索引擎:快速搜索数百万可用的RSS供稿。
RESTFUL API:将Feed数据变成很棒的API。 API简化了您处理RSS,原子或JSON馈送的方式。您可以使用简单,快速,清洁的REST API添加并跟踪自己喜欢的饲料数据。所有条目都通过机器学习和语义引擎丰富。
curl ' https://<yourhost>/api/searches?q=news ' | json_pp
{
" data " : [
{
" id " : " 86b0f829-e300-4eef-82e1-82f34d03aff6 " ,
" type " : " entry " ,
" attributes " : {
" title " : " " Pandemic, Infodemic " : 2 Cartoon Characters Battling Fake News In Assam " ,
" url " : " https://www.ndtv.com/india-news/coronavirus-pandemic-infodemic-2-cartoon-characters-battling-fake-news-in-assam-2222333 " ,
" published_at " : 1588448805,
" body " : " An English daily in Assam's Guwahati has been publishing a cartoon strip to tackle the fake news related to the coronavirus pandemic. The two central characters- " Pandemic and Infodemic " - are being...<img src= " http://feeds.feedburner.com/~r/NDTV-LatestNews/~4/lEmH201Q8jI " height= " 1 " width= " 1 " alt= "" /> " ,
" text " : " An English daily in Assam's Guwahati has been publishing a cartoon strip to tackle the fake news related to the coronavirus pandemic. The two central characters- " Pandemic and Infodemic " - are being... " ,
" categories " : [
" all india "
],
" sentiment " : null,
" parent " : {
" id " : " c97bdae6-b5d1-4966-b9f3-615e29d4d47d " ,
" title " : " NDTV News - Special " ,
" url " : " feed:http://feeds.feedburner.com/NDTV-LatestNews " ,
" rank " : 99
},
" tags " : []
},
" relationships " : {
" feed " : {
" data " : {
" id " : " c97bdae6-b5d1-4966-b9f3-615e29d4d47d " ,
" type " : " feed "
}
}
}
},
]
}
搜索只是使用全文搜索Postgres功能实现的。
我使用了PG_Search GEM ,可以通过两种方式使用:
多搜索:搜索多个模型并返回单个结果。想象一下有三个型号:产品,品牌和评论。使用多搜索我们可以同时搜索所有搜索,看到一组搜索结果。这非常适合将联合搜索功能添加到您的应用程序中。
搜索范围:在单个模型中搜索,但具有更大的灵活性。
execute << - SQL
ALTER TABLE entries
ADD COLUMN searchable tsvector GENERATED ALWAYS AS (
setweight(to_tsvector( ' simple ' , coalesce(title, ' ' )), ' A ' ) ||
setweight(to_tsvector( ' simple ' , coalesce(body, ' ' )), ' B ' ) ||
setweight(to_tsvector( ' simple ' , coalesce(url, ' ' )), ' C ' )
) STORED;
SQLFeed排名由OpenRank提供基于常见搜索Pagerank数据集的自由根域权限度量。该价值通过
( ( Math . log10 ( domain_rank ) / Math . log10 ( 100 ) ) * 100 ) . round 机器学习由蒲公英API语义文本分析作为服务,从文本到可行的数据。从非结构化的文本中提取含义,并将其放在上下文中。
您可以根据需要添加尽可能多的提要来处理自动爬网。
https:/// feeds/new
所有API文档都在Wiki部分中。当然,请随时使其变得更好。
https://github.com/davidesantangelo/dato.rss/wiki
要使用一些功能,例如添加新提要,您需要具有写入许可的令牌。目前,我只能启用它。如果联系我
加上很多红宝石宝石,其中的完整列表为 /主 /gemfile。
如果您想支持我的服务器成本以保持dato.ess免费,请考虑赞助!谢谢!
Github赞助商
欢迎在https://github.com/davidesantangelo/dato.rss的GitHub上的错误报告和拉动请求。该项目旨在是一个安全,热情的协作空间,预计贡献者将遵守撰稿人契约的行为准则。
根据MIT许可证的条款,该宝石可作为开源。