非结构化数据识别与分类分级系统

一个用于数据安全风控的非结构化数据识别与分类分级系统，支持多种文档格式的自动解析、内容提取、敏感数据识别和分类分级。

功能特性

🔍 多格式支持: 支持 20+ 种文档格式解析
🛡️ 敏感数据识别: 自动识别身份证、手机号、银行卡等敏感信息
⚖️ 分类分级: 根据敏感数据类型和数量进行风险等级评定
📊 历史记录: 完整的文件处理历史记录查询和管理
🤖 AI分析: 提供AI模型推理过程和置信度分析
🚀 Demo模式: 使用Mock数据，无需真实文档解析库

技术架构

后端

框架: FastAPI + Uvicorn
语言: Python 3.9+
数据验证: Pydantic v2
测试: pytest + httpx

前端

框架: Vue.js 3 + TypeScript
构建工具: Vite
样式: Tailwind CSS
UI组件: idux
状态管理: Pinia

快速开始

环境要求

Python 3.9+
Node.js 16+

安装依赖

# 后端依赖
cd backend
pip install -r requirements.txt

# 前端依赖
cd ../frontend
npm install

启动开发环境

# 使用脚本快速启动
./scripts/start_dev.sh

# 或者手动启动
# 终端1: 启动后端
cd backend
uvicorn main:app --reload --port 8000

# 终端2: 启动前端
cd frontend
npm run dev

访问系统

项目结构

file-parse/
├── backend/                 # Python FastAPI 后端
│   ├── config/             # 配置管理
│   ├── models/             # 数据模型
│   ├── services/           # 业务逻辑
│   ├── middleware/         # 中间件
│   ├── utils/              # 工具函数
│   └── tests/              # 测试文件
├── frontend/               # Vue.js 前端
│   ├── src/
│   │   ├── components/     # 组件
│   │   ├── stores/         # 状态管理
│   │   ├── api/           # API请求
│   │   ├── types/         # 类型定义
│   │   └── utils/         # 工具函数
│   └── public/            # 静态文件
├── docs/                   # 项目文档
├── scripts/                # 脚本文件
└── CLAUDE.md              # 项目记忆文件

开发指南

后端开发

# 代码格式化
black backend/
isort backend/

# 类型检查
mypy backend/

# 运行测试
pytest backend/tests/ -v

前端开发

cd frontend

# 开发服务器
npm run dev

# 类型检查
npm run type-check

# 构建
npm run build

文档

许可证

MIT License

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
.claude		.claude
backend		backend
claude_docs		claude_docs
docs		docs
frontend		frontend
scripts		scripts
.env.example		.env.example
.gitignore		.gitignore
CLAUDE.md		CLAUDE.md
Dockerfile		Dockerfile
QUICK_START.md		QUICK_START.md
README.md		README.md
SIMPLE_DEPLOY.md		SIMPLE_DEPLOY.md
docker-compose.yml		docker-compose.yml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

非结构化数据识别与分类分级系统

功能特性

技术架构

后端

前端

快速开始

环境要求

安装依赖

启动开发环境

访问系统

项目结构

开发指南

后端开发

前端开发

文档

许可证

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

非结构化数据识别与分类分级系统

功能特性

技术架构

后端

前端

快速开始

环境要求

安装依赖

启动开发环境

访问系统

项目结构

开发指南

后端开发

前端开发

文档

许可证

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages