Better analyze information, in all its forms
DataShare旨在将锁定在计算机内数百页文档中有关人员和公司的宝贵信息嵌入到索引中,并在受信任的个人网络中安全地共享,促进不可预见的协作并促使新的更好的调查发现腐败、跨国犯罪和滥用权力等现象。
DataShare:将本地数据与全球集体智慧联系起来
官网:
https://datashare.icij.org/
Github项目地址:
https://github.com/ICIJ/datashare
一个可扩展的多语言信息提取和搜索平台
从文件中提取文本;
从文本中提取组织、人员和地点;
索引和全局搜索
多线程和分布式处理
本地或远程索引
你可以下载并执行脚本 datashare.sh 。 它将会:
下载 redis, elasticsearch 和 datashare docker 容器
使用数据共享映射初始化elasticsearch索引
提供CLI以运行 datashare 的提取、索引、名称查找等任务
提供WEB GUI以运行 datashare 的提取、索引、名称查找任务和搜索文档
要访问Web GUI,请打开文档文件夹并启动 path/to/datashare.sh -w ,然后在 http://localhost:8080 上连接 datashare
如果要避免同步NLP模型(脱机使用),请在启动 datashare.sh 脚本之前完成以下指令:export DS_JAVA_OPTS="-DDS_SYNC_NLP_MODELS=false" 。
你可以仅将datashare docker容器用于HTTP公开的名称查找API。
运行指令:
docker run -ti -p 8080:8080 -v /path/to/dist/:/home/datashare/dist icij/datashare:0.10 -m NER -w
解释一下:
-w 会告知datashare运行web服务器。它将会在8080端口上启动,这就是端口映射为docker的原因
-m NER 在无状态模式下运行没有索引的datashare
-v /path/to/dist:/home/datashare/dist 映射将读取NLP模型的目录(如果它们不存在则会下载)
然后使用curl查询服务器:
curl -i localhost:8080/ner/findNames/CORENLP --data-binary @path/to/a/file.txt
最后一个路径部分(CORENLP)是框架。 你可以在CORENLP,IXAPIPE,MITIE或OPENNLP中选择它。
实现
TikaDocument from ICIJ/extract
Apache Tika v1.18 (Apache Licence v2.0)
with Tesseract v4.0 alpha
支持
Tika 文件格式
实现
org.icij.datashare.text.nlp.corenlp.CorenlpPipeline
Stanford CoreNLP v3.8.0, (Conditional Random Fields), Composite GPL v3+
org.icij.datashare.text.nlp.ixapipe.IxapipePipeline
Ixa Pipes Nerc v1.6.1, (Perceptron), Apache Licence v2.0
org.icij.datashare.text.nlp.mitie.MitiePipeline
MIT Information Extraction v0.8, (Structural Support Vector Machines), Boost Software License v1.0
org.icij.datashare.text.nlp.opennlp.OpennlpPipeline
Apache OpenNLP v1.6.0, (Maximum Entropy), Apache Licence v2.0
自然语言处理阶段支持
命名实体识别语言支持
命名实体类别支持
词类语言支持
实现
org.icij.datashare.text.indexing.elasticsearch.ElasticsearchIndexer
Elasticsearch v6.1.0, Apache Licence v2.0
环境需要安装 JDK 8, Maven 3
从 datashare 根目录,键入:mvn package
DataShare根据GNU Affero通用公共许可证发布
我们欢迎反馈和贡献!
对于任何错误、问题、评论或(拉取)请求,请发送邮件到 engineering#icij.org(#代替@)与我们联系
数据共享模块
网络模块
内容管理模块
用户管理模块
请求和交换协议
点击阅读原文,查看本文更多内容↙