Github项目推荐 | Datashare - 安全的个人文档索引/检索服务

2019 年 2 月 17 日 AI研习社

Better analyze information, in all its forms

DataShare旨在将锁定在计算机内数百页文档中有关人员和公司的宝贵信息嵌入到索引中,并在受信任的个人网络中安全地共享,促进不可预见的协作并促使新的更好的调查发现腐败、跨国犯罪和滥用权力等现象。

DataShare:将本地数据与全球集体智慧联系起来

官网:

https://datashare.icij.org/

Github项目地址:

https://github.com/ICIJ/datashare


现有功能

一个可扩展的多语言信息提取和搜索平台

  • 从文件中提取文本;

  • 从文本中提取组织、人员和地点;

  • 索引和全局搜索

多线程和分布式处理

本地或远程索引


安装与使用

使用elasticsearch

你可以下载并执行脚本 datashare.sh 。 它将会:

  • 下载  redis, elasticsearch  和 datashare  docker 容器

  • 使用数据共享映射初始化elasticsearch索引

  • 提供CLI以运行 datashare 的提取、索引、名称查找等任务

  • 提供WEB GUI以运行 datashare 的提取、索引、名称查找任务和搜索文档

要访问Web GUI,请打开文档文件夹并启动 path/to/datashare.sh -w ,然后在 http://localhost:8080 上连接 datashare

如果要避免同步NLP模型(脱机使用),请在启动 datashare.sh 脚本之前完成以下指令:export DS_JAVA_OPTS="-DDS_SYNC_NLP_MODELS=false" 


仅使用命名实体识别

你可以仅将datashare docker容器用于HTTP公开的名称查找API。

运行指令:

docker run -ti -p 8080:8080 -v /path/to/dist/:/home/datashare/dist icij/datashare:0.10 -m NER -w


解释一下:

-w     会告知datashare运行web服务器。它将会在8080端口上启动,这就是端口映射为docker的原因

-m NER     在无状态模式下运行没有索引的datashare

-v /path/to/dist:/home/datashare/dist     映射将读取NLP模型的目录(如果它们不存在则会下载)


然后使用curl查询服务器:

curl -i localhost:8080/ner/findNames/CORENLP --data-binary @path/to/a/file.txt

最后一个路径部分(CORENLP)是框架。 你可以在CORENLP,IXAPIPE,MITIE或OPENNLP中选择它。


从文件中提取文本

实现

  • TikaDocument from ICIJ/extract

        Apache Tika v1.18 (Apache Licence v2.0)

        with Tesseract v4.0 alpha

支持

Tika 文件格式


从文本中提取人员,组织或位置

实现

  • org.icij.datashare.text.nlp.corenlp.CorenlpPipeline

        Stanford CoreNLP v3.8.0, (Conditional Random Fields), Composite GPL v3+

  • org.icij.datashare.text.nlp.ixapipe.IxapipePipeline

        Ixa Pipes Nerc v1.6.1, (Perceptron), Apache Licence v2.0

  • org.icij.datashare.text.nlp.mitie.MitiePipeline

        MIT Information Extraction v0.8, (Structural Support Vector Machines), Boost Software License v1.0

  • org.icij.datashare.text.nlp.opennlp.OpennlpPipeline

        Apache OpenNLP v1.6.0, (Maximum Entropy), Apache Licence v2.0


自然语言处理阶段支持

命名实体识别语言支持

命名实体类别支持

词类语言支持


存储与搜索文档及命名实体

实现

  • org.icij.datashare.text.indexing.elasticsearch.ElasticsearchIndexer

        Elasticsearch v6.1.0, Apache Licence v2.0


编译/构建

环境需要安装 JDK 8, Maven 3

从 datashare 根目录,键入:mvn package


License

DataShare根据GNU Affero通用公共许可证发布


反馈

我们欢迎反馈和贡献!

对于任何错误、问题、评论或(拉取)请求,请发送邮件到 engineering#icij.org(#代替@)与我们联系


What's next

  • 数据共享模块

    • 网络模块

    • 内容管理模块

    • 用户管理模块

    • 请求和交换协议

点击阅读原文,查看本文更多内容

登录查看更多
2

相关内容

【2020新书】实战R语言4,323页pdf
专知会员服务
102+阅读 · 2020年7月1日
【WWW2020-微软】理解用户行为用于文档推荐
专知会员服务
36+阅读 · 2020年4月5日
【干货】大数据入门指南:Hadoop、Hive、Spark、 Storm等
专知会员服务
96+阅读 · 2019年12月4日
Github项目推荐 | gensim - Python中的主题建模
AI研习社
15+阅读 · 2019年3月16日
百度开源项目OpenRASP快速上手指南
黑客技术与网络安全
5+阅读 · 2019年2月12日
Github项目推荐 | RecQ - Python推荐系统框架
AI研习社
8+阅读 · 2019年1月23日
Github 项目推荐 | 用 PyTorch 0.4 实现的 YoloV3
AI研习社
9+阅读 · 2018年8月11日
干货|全文检索Solr集成HanLP中文分词
全球人工智能
4+阅读 · 2017年8月27日
Arxiv
20+阅读 · 2019年11月23日
Arxiv
8+阅读 · 2019年3月28日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
5+阅读 · 2018年3月6日
VIP会员
相关资讯
Github项目推荐 | gensim - Python中的主题建模
AI研习社
15+阅读 · 2019年3月16日
百度开源项目OpenRASP快速上手指南
黑客技术与网络安全
5+阅读 · 2019年2月12日
Github项目推荐 | RecQ - Python推荐系统框架
AI研习社
8+阅读 · 2019年1月23日
Github 项目推荐 | 用 PyTorch 0.4 实现的 YoloV3
AI研习社
9+阅读 · 2018年8月11日
干货|全文检索Solr集成HanLP中文分词
全球人工智能
4+阅读 · 2017年8月27日
相关论文
Arxiv
20+阅读 · 2019年11月23日
Arxiv
8+阅读 · 2019年3月28日
Hardness-Aware Deep Metric Learning
Arxiv
6+阅读 · 2019年3月13日
Arxiv
7+阅读 · 2018年6月8日
Arxiv
5+阅读 · 2018年3月6日
Top
微信扫码咨询专知VIP会员