Skip to content

IronRookieCoder/file-parse

Repository files navigation

非结构化数据识别与分类分级系统

一个用于数据安全风控的非结构化数据识别与分类分级系统,支持多种文档格式的自动解析、内容提取、敏感数据识别和分类分级。

功能特性

  • 🔍 多格式支持: 支持 20+ 种文档格式解析
  • 🛡️ 敏感数据识别: 自动识别身份证、手机号、银行卡等敏感信息
  • ⚖️ 分类分级: 根据敏感数据类型和数量进行风险等级评定
  • 📊 历史记录: 完整的文件处理历史记录查询和管理
  • 🤖 AI分析: 提供AI模型推理过程和置信度分析
  • 🚀 Demo模式: 使用Mock数据,无需真实文档解析库

技术架构

后端

  • 框架: FastAPI + Uvicorn
  • 语言: Python 3.9+
  • 数据验证: Pydantic v2
  • 测试: pytest + httpx

前端

  • 框架: Vue.js 3 + TypeScript
  • 构建工具: Vite
  • 样式: Tailwind CSS
  • UI组件: idux
  • 状态管理: Pinia

快速开始

环境要求

  • Python 3.9+
  • Node.js 16+

安装依赖

# 后端依赖
cd backend
pip install -r requirements.txt

# 前端依赖
cd ../frontend
npm install

启动开发环境

# 使用脚本快速启动
./scripts/start_dev.sh

# 或者手动启动
# 终端1: 启动后端
cd backend
uvicorn main:app --reload --port 8000

# 终端2: 启动前端
cd frontend
npm run dev

访问系统

项目结构

file-parse/
├── backend/                 # Python FastAPI 后端
│   ├── config/             # 配置管理
│   ├── models/             # 数据模型
│   ├── services/           # 业务逻辑
│   ├── middleware/         # 中间件
│   ├── utils/              # 工具函数
│   └── tests/              # 测试文件
├── frontend/               # Vue.js 前端
│   ├── src/
│   │   ├── components/     # 组件
│   │   ├── stores/         # 状态管理
│   │   ├── api/           # API请求
│   │   ├── types/         # 类型定义
│   │   └── utils/         # 工具函数
│   └── public/            # 静态文件
├── docs/                   # 项目文档
├── scripts/                # 脚本文件
└── CLAUDE.md              # 项目记忆文件

开发指南

后端开发

# 代码格式化
black backend/
isort backend/

# 类型检查
mypy backend/

# 运行测试
pytest backend/tests/ -v

前端开发

cd frontend

# 开发服务器
npm run dev

# 类型检查
npm run type-check

# 构建
npm run build

文档

许可证

MIT License

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors