bmc_hub/scripts/validate_migrations.py

#!/usr/bin/env python3
import argparse
import json
import logging
import re
import sys
from pathlib import Path

import psycopg2
from psycopg2.extras import RealDictCursor


ROOT = Path(__file__).resolve().parents[1]
if str(ROOT) not in sys.path:
    sys.path.insert(0, str(ROOT))

from app.core.config import settings


logging.basicConfig(level=logging.INFO, format="%(message)s")
logger = logging.getLogger(__name__)

NUMBERED_SQL_RE = re.compile(r"^\d+.*\.sql$")
CREATE_TABLE_RE = re.compile(
    r"CREATE\s+TABLE\s+(?:IF\s+NOT\s+EXISTS\s+)?([A-Za-z_][A-Za-z0-9_]*)\s*\(",
    re.IGNORECASE,
)
ADD_COLUMN_RE = re.compile(
    r"ALTER\s+TABLE\s+(?:IF\s+EXISTS\s+)?([A-Za-z_][A-Za-z0-9_]*)\s+ADD\s+COLUMN\s+(?:IF\s+NOT\s+EXISTS\s+)?([A-Za-z_][A-Za-z0-9_]*)",
    re.IGNORECASE,
)
CREATE_INDEX_RE = re.compile(
    r"CREATE\s+(?:UNIQUE\s+)?INDEX\s+(?:IF\s+NOT\s+EXISTS\s+)?([A-Za-z_][A-Za-z0-9_]*)\s+ON\s+([A-Za-z_][A-Za-z0-9_]*)",
    re.IGNORECASE,
)
SKIP_COLUMN_LINE_RE = re.compile(
    r"^(?:CONSTRAINT|PRIMARY\s+KEY|FOREIGN\s+KEY|UNIQUE|CHECK|CASE|WHEN|ELSE|END)\b",
    re.IGNORECASE,
)


def parse_args() -> argparse.Namespace:
    parser = argparse.ArgumentParser(
        description="Validate BMC Hub SQL migrations against current PostgreSQL schema."
    )
    parser.add_argument(
        "--json",
        action="store_true",
        help="Output report in JSON format.",
    )
    parser.add_argument(
        "--strict-indexes",
        action="store_true",
        default=False,
        help="Treat missing indexes as failure (default: False).",
    )
    parser.add_argument(
        "--module",
        action="append",
        default=[],
        help="Also parse numbered SQL files from a module migration directory, relative to repo root.",
    )
    return parser.parse_args()


def patch_database_url_for_local_dev() -> None:
    if "@postgres" in settings.DATABASE_URL:
        logger.info("Patching DATABASE_URL for local run")
        settings.DATABASE_URL = settings.DATABASE_URL.replace("@postgres", "@localhost").replace(":5432", ":5433")


def collect_numbered_sql(directory: Path) -> list[Path]:
    files = [p for p in directory.glob("*.sql") if NUMBERED_SQL_RE.match(p.name)]

    def _sort_key(path: Path) -> tuple[int, str]:
        match = re.match(r"^(\d+)", path.name)
        prefix = int(match.group(1)) if match else 0
        return (prefix, path.name)

    files.sort(key=_sort_key)
    return files


def build_file_list(args: argparse.Namespace) -> list[Path]:
    files: list[Path] = []

    root_migrations = ROOT / "migrations"
    files.extend(collect_numbered_sql(root_migrations))

    for module_dir in args.module:
        path = (ROOT / module_dir).resolve()
        if not path.exists() or not path.is_dir():
            raise FileNotFoundError(f"Module migration directory not found: {module_dir}")
        files.extend(collect_numbered_sql(path))

    unique_files: list[Path] = []
    seen: set[Path] = set()
    for path in files:
        if path not in seen:
            unique_files.append(path)
            seen.add(path)

    return unique_files


def strip_sql_comments(sql: str) -> str:
    sql = re.sub(r"/\*.*?\*/", "", sql, flags=re.DOTALL)
    sql = re.sub(r"--[^\n]*", "", sql)
    return sql


def extract_create_table_block(sql: str, table_name: str, start_pos: int) -> str:
    """Return create-table body between the first opening '(' and matching ')'."""
    open_paren = sql.find("(", start_pos)
    if open_paren == -1:
        return ""

    depth = 0
    for i in range(open_paren, len(sql)):
        ch = sql[i]
        if ch == "(":
            depth += 1
        elif ch == ")":
            depth -= 1
            if depth == 0:
                return sql[open_paren + 1:i]
    return ""


def parse_columns_from_create_block(block: str) -> set[str]:
    columns: set[str] = set()
    known_types = {
        "serial", "bigserial", "smallint", "integer", "bigint", "numeric", "decimal", "real", "double",
        "varchar", "character", "text", "boolean", "bool", "date", "timestamp", "time", "json", "jsonb", "uuid"
    }
    for raw_line in block.splitlines():
        line = raw_line.strip().rstrip(",")
        if not line:
            continue
        if SKIP_COLUMN_LINE_RE.match(line):
            continue

        tokens = line.replace("(", " ").split()
        if len(tokens) < 2:
            continue

        second = tokens[1].strip().lower()
        second_base = re.sub(r"[^a-z]", "", second)
        if second_base and second_base not in known_types:
            continue

        match = re.match(r"^\"?([A-Za-z_][A-Za-z0-9_]*)\"?\s+", line)
        if match:
            columns.add(match.group(1))
    return columns


def parse_expected_schema(files: list[Path]) -> tuple[dict[str, set[str]], set[str]]:
    expected_tables: dict[str, set[str]] = {}
    expected_indexes: set[str] = set()

    for path in files:
        sql = strip_sql_comments(path.read_text(encoding="utf-8"))

        for match in CREATE_TABLE_RE.finditer(sql):
            table_name = match.group(1)
            if table_name not in expected_tables:
                expected_tables[table_name] = set()

            block = extract_create_table_block(sql, table_name, match.end() - 1)
            expected_tables[table_name].update(parse_columns_from_create_block(block))

        for match in ADD_COLUMN_RE.finditer(sql):
            table_name = match.group(1)
            column_name = match.group(2)
            if table_name not in expected_tables:
                expected_tables[table_name] = set()
            expected_tables[table_name].add(column_name)

        for match in CREATE_INDEX_RE.finditer(sql):
            index_name = match.group(1)
            expected_indexes.add(index_name)

    return expected_tables, expected_indexes


def query_actual_schema() -> tuple[set[str], dict[str, set[str]], set[str]]:
    conn = psycopg2.connect(settings.DATABASE_URL)
    conn.autocommit = True

    try:
        with conn.cursor(cursor_factory=RealDictCursor) as cur:
            cur.execute(
                """
                SELECT table_name
                FROM information_schema.tables
                WHERE table_schema = 'public'
                  AND table_type = 'BASE TABLE'
                ORDER BY table_name
                """
            )
            actual_tables = {row["table_name"] for row in cur.fetchall()}

            cur.execute(
                """
                SELECT table_name, column_name
                FROM information_schema.columns
                WHERE table_schema = 'public'
                ORDER BY table_name, ordinal_position
                """
            )
            actual_columns: dict[str, set[str]] = {}
            for row in cur.fetchall():
                table_name = row["table_name"]
                if table_name not in actual_columns:
                    actual_columns[table_name] = set()
                actual_columns[table_name].add(row["column_name"])

            cur.execute(
                """
                SELECT indexname
                FROM pg_indexes
                WHERE schemaname = 'public'
                ORDER BY indexname
                """
            )
            actual_indexes = {row["indexname"] for row in cur.fetchall()}

        return actual_tables, actual_columns, actual_indexes
    finally:
        conn.close()


def compare_expected_vs_actual(
    expected_tables: dict[str, set[str]],
    expected_indexes: set[str],
    actual_tables: set[str],
    actual_columns: dict[str, set[str]],
    actual_indexes: set[str],
) -> dict[str, list[str]]:
    missing_tables: list[str] = []
    missing_columns: list[str] = []
    missing_indexes: list[str] = []

    for table_name in sorted(expected_tables.keys()):
        if table_name not in actual_tables:
            missing_tables.append(table_name)
            continue

        expected_cols = expected_tables.get(table_name, set())
        current_cols = actual_columns.get(table_name, set())
        for col in sorted(expected_cols):
            if col not in current_cols:
                missing_columns.append(f"{table_name}.{col}")

    for index_name in sorted(expected_indexes):
        if index_name not in actual_indexes:
            missing_indexes.append(index_name)

    return {
        "missing_tables": missing_tables,
        "missing_columns": missing_columns,
        "missing_indexes": missing_indexes,
    }


def print_report(report: dict[str, list[str]]) -> None:
    if not report["missing_tables"] and not report["missing_columns"] and not report["missing_indexes"]:
        logger.info("Schema validation OK: no mismatches found.")
        return

    if report["missing_tables"]:
        logger.error("Missing tables:")
        for table_name in report["missing_tables"]:
            logger.error("- %s", table_name)

    if report["missing_columns"]:
        logger.error("Missing columns:")
        for column_name in report["missing_columns"]:
            logger.error("- %s", column_name)

    if report["missing_indexes"]:
        logger.warning("Missing indexes:")
        for index_name in report["missing_indexes"]:
            logger.warning("- %s", index_name)


def determine_exit_code(report: dict[str, list[str]], strict_indexes: bool) -> int:
    has_table_or_column_mismatch = bool(report["missing_tables"] or report["missing_columns"])
    has_index_mismatch = bool(report["missing_indexes"])

    if has_table_or_column_mismatch:
        return 1
    if strict_indexes and has_index_mismatch:
        return 1
    return 0


def main() -> int:
    args = parse_args()

    try:
        patch_database_url_for_local_dev()
        files = build_file_list(args)
        expected_tables, expected_indexes = parse_expected_schema(files)
        actual_tables, actual_columns, actual_indexes = query_actual_schema()

        report = compare_expected_vs_actual(
            expected_tables,
            expected_indexes,
            actual_tables,
            actual_columns,
            actual_indexes,
        )

        if args.json:
            payload = {
                "status": "ok" if determine_exit_code(report, args.strict_indexes) == 0 else "mismatch",
                "strict_indexes": args.strict_indexes,
                "parsed_files": [str(path.relative_to(ROOT)) for path in files],
                "missing_tables": report["missing_tables"],
                "missing_columns": report["missing_columns"],
                "missing_indexes": report["missing_indexes"],
            }
            print(json.dumps(payload, ensure_ascii=True))
        else:
            logger.info("Parsed migration files: %s", len(files))
            print_report(report)

        return determine_exit_code(report, args.strict_indexes)
    except Exception as exc:
        if args.json:
            print(json.dumps({"status": "error", "message": str(exc)}, ensure_ascii=True))
        else:
            logger.error("Validation failed: %s", exc)
        return 2


if __name__ == "__main__":
    raise SystemExit(main())
feat: add migration validation script and enhance migration status UI 2026-03-25 22:49:33 +01:00			`#!/usr/bin/env python3`
			`import argparse`
			`import json`
			`import logging`
			`import re`
			`import sys`
			`from pathlib import Path`

			`import psycopg2`
			`from psycopg2.extras import RealDictCursor`


			`ROOT = Path(__file__).resolve().parents[1]`
			`if str(ROOT) not in sys.path:`
			`sys.path.insert(0, str(ROOT))`

			`from app.core.config import settings`


			`logging.basicConfig(level=logging.INFO, format="%(message)s")`
			`logger = logging.getLogger(__name__)`

			`NUMBERED_SQL_RE = re.compile(r"^\d+.*\.sql$")`
			`CREATE_TABLE_RE = re.compile(`
			`r"CREATE\s+TABLE\s+(?:IF\s+NOT\s+EXISTS\s+)?([A-Za-z_][A-Za-z0-9_])\s\(",`
			`re.IGNORECASE,`
			`)`
			`ADD_COLUMN_RE = re.compile(`
			`r"ALTER\s+TABLE\s+(?:IF\s+EXISTS\s+)?([A-Za-z_][A-Za-z0-9_])\s+ADD\s+COLUMN\s+(?:IF\s+NOT\s+EXISTS\s+)?([A-Za-z_][A-Za-z0-9_])",`
			`re.IGNORECASE,`
			`)`
			`CREATE_INDEX_RE = re.compile(`
			`r"CREATE\s+(?:UNIQUE\s+)?INDEX\s+(?:IF\s+NOT\s+EXISTS\s+)?([A-Za-z_][A-Za-z0-9_])\s+ON\s+([A-Za-z_][A-Za-z0-9_])",`
			`re.IGNORECASE,`
			`)`
			`SKIP_COLUMN_LINE_RE = re.compile(`
			`r"^(?:CONSTRAINT\|PRIMARY\s+KEY\|FOREIGN\s+KEY\|UNIQUE\|CHECK\|CASE\|WHEN\|ELSE\|END)\b",`
			`re.IGNORECASE,`
			`)`


			`def parse_args() -> argparse.Namespace:`
			`parser = argparse.ArgumentParser(`
			`description="Validate BMC Hub SQL migrations against current PostgreSQL schema."`
			`)`
			`parser.add_argument(`
			`"--json",`
			`action="store_true",`
			`help="Output report in JSON format.",`
			`)`
			`parser.add_argument(`
			`"--strict-indexes",`
			`action="store_true",`
			`default=False,`
			`help="Treat missing indexes as failure (default: False).",`
			`)`
			`parser.add_argument(`
			`"--module",`
			`action="append",`
			`default=[],`
			`help="Also parse numbered SQL files from a module migration directory, relative to repo root.",`
			`)`
			`return parser.parse_args()`


			`def patch_database_url_for_local_dev() -> None:`
			`if "@postgres" in settings.DATABASE_URL:`
			`logger.info("Patching DATABASE_URL for local run")`
			`settings.DATABASE_URL = settings.DATABASE_URL.replace("@postgres", "@localhost").replace(":5432", ":5433")`


			`def collect_numbered_sql(directory: Path) -> list[Path]:`
			`files = [p for p in directory.glob("*.sql") if NUMBERED_SQL_RE.match(p.name)]`

			`def _sort_key(path: Path) -> tuple[int, str]:`
			`match = re.match(r"^(\d+)", path.name)`
			`prefix = int(match.group(1)) if match else 0`
			`return (prefix, path.name)`

			`files.sort(key=_sort_key)`
			`return files`


			`def build_file_list(args: argparse.Namespace) -> list[Path]:`
			`files: list[Path] = []`

			`root_migrations = ROOT / "migrations"`
			`files.extend(collect_numbered_sql(root_migrations))`

			`for module_dir in args.module:`
			`path = (ROOT / module_dir).resolve()`
			`if not path.exists() or not path.is_dir():`
			`raise FileNotFoundError(f"Module migration directory not found: {module_dir}")`
			`files.extend(collect_numbered_sql(path))`

			`unique_files: list[Path] = []`
			`seen: set[Path] = set()`
			`for path in files:`
			`if path not in seen:`
			`unique_files.append(path)`
			`seen.add(path)`

			`return unique_files`


			`def strip_sql_comments(sql: str) -> str:`
			`sql = re.sub(r"/\.?\*/", "", sql, flags=re.DOTALL)`
			`sql = re.sub(r"--[^\n]*", "", sql)`
			`return sql`


			`def extract_create_table_block(sql: str, table_name: str, start_pos: int) -> str:`
			`"""Return create-table body between the first opening '(' and matching ')'."""`
			`open_paren = sql.find("(", start_pos)`
			`if open_paren == -1:`
			`return ""`

			`depth = 0`
			`for i in range(open_paren, len(sql)):`
			`ch = sql[i]`
			`if ch == "(":`
			`depth += 1`
			`elif ch == ")":`
			`depth -= 1`
			`if depth == 0:`
			`return sql[open_paren + 1:i]`
			`return ""`


			`def parse_columns_from_create_block(block: str) -> set[str]:`
			`columns: set[str] = set()`
			`known_types = {`
			`"serial", "bigserial", "smallint", "integer", "bigint", "numeric", "decimal", "real", "double",`
			`"varchar", "character", "text", "boolean", "bool", "date", "timestamp", "time", "json", "jsonb", "uuid"`
			`}`
			`for raw_line in block.splitlines():`
			`line = raw_line.strip().rstrip(",")`
			`if not line:`
			`continue`
			`if SKIP_COLUMN_LINE_RE.match(line):`
			`continue`

			`tokens = line.replace("(", " ").split()`
			`if len(tokens) < 2:`
			`continue`

			`second = tokens[1].strip().lower()`
			`second_base = re.sub(r"[^a-z]", "", second)`
			`if second_base and second_base not in known_types:`
			`continue`

			`match = re.match(r"^\"?([A-Za-z_][A-Za-z0-9_]*)\"?\s+", line)`
			`if match:`
			`columns.add(match.group(1))`
			`return columns`


			`def parse_expected_schema(files: list[Path]) -> tuple[dict[str, set[str]], set[str]]:`
			`expected_tables: dict[str, set[str]] = {}`
			`expected_indexes: set[str] = set()`

			`for path in files:`
			`sql = strip_sql_comments(path.read_text(encoding="utf-8"))`

			`for match in CREATE_TABLE_RE.finditer(sql):`
			`table_name = match.group(1)`
			`if table_name not in expected_tables:`
			`expected_tables[table_name] = set()`

			`block = extract_create_table_block(sql, table_name, match.end() - 1)`
			`expected_tables[table_name].update(parse_columns_from_create_block(block))`

			`for match in ADD_COLUMN_RE.finditer(sql):`
			`table_name = match.group(1)`
			`column_name = match.group(2)`
			`if table_name not in expected_tables:`
			`expected_tables[table_name] = set()`
			`expected_tables[table_name].add(column_name)`

			`for match in CREATE_INDEX_RE.finditer(sql):`
			`index_name = match.group(1)`
			`expected_indexes.add(index_name)`

			`return expected_tables, expected_indexes`


			`def query_actual_schema() -> tuple[set[str], dict[str, set[str]], set[str]]:`
			`conn = psycopg2.connect(settings.DATABASE_URL)`
			`conn.autocommit = True`

			`try:`
			`with conn.cursor(cursor_factory=RealDictCursor) as cur:`
			`cur.execute(`
			`"""`
			`SELECT table_name`
			`FROM information_schema.tables`
			`WHERE table_schema = 'public'`
			`AND table_type = 'BASE TABLE'`
			`ORDER BY table_name`
			`"""`
			`)`
			`actual_tables = {row["table_name"] for row in cur.fetchall()}`

			`cur.execute(`
			`"""`
			`SELECT table_name, column_name`
			`FROM information_schema.columns`
			`WHERE table_schema = 'public'`
			`ORDER BY table_name, ordinal_position`
			`"""`
			`)`
			`actual_columns: dict[str, set[str]] = {}`
			`for row in cur.fetchall():`
			`table_name = row["table_name"]`
			`if table_name not in actual_columns:`
			`actual_columns[table_name] = set()`
			`actual_columns[table_name].add(row["column_name"])`

			`cur.execute(`
			`"""`
			`SELECT indexname`
			`FROM pg_indexes`
			`WHERE schemaname = 'public'`
			`ORDER BY indexname`
			`"""`
			`)`
			`actual_indexes = {row["indexname"] for row in cur.fetchall()}`

			`return actual_tables, actual_columns, actual_indexes`
			`finally:`
			`conn.close()`


			`def compare_expected_vs_actual(`
			`expected_tables: dict[str, set[str]],`
			`expected_indexes: set[str],`
			`actual_tables: set[str],`
			`actual_columns: dict[str, set[str]],`
			`actual_indexes: set[str],`
			`) -> dict[str, list[str]]:`
			`missing_tables: list[str] = []`
			`missing_columns: list[str] = []`
			`missing_indexes: list[str] = []`

			`for table_name in sorted(expected_tables.keys()):`
			`if table_name not in actual_tables:`
			`missing_tables.append(table_name)`
			`continue`

			`expected_cols = expected_tables.get(table_name, set())`
			`current_cols = actual_columns.get(table_name, set())`
			`for col in sorted(expected_cols):`
			`if col not in current_cols:`
			`missing_columns.append(f"{table_name}.{col}")`

			`for index_name in sorted(expected_indexes):`
			`if index_name not in actual_indexes:`
			`missing_indexes.append(index_name)`

			`return {`
			`"missing_tables": missing_tables,`
			`"missing_columns": missing_columns,`
			`"missing_indexes": missing_indexes,`
			`}`


			`def print_report(report: dict[str, list[str]]) -> None:`
			`if not report["missing_tables"] and not report["missing_columns"] and not report["missing_indexes"]:`
			`logger.info("Schema validation OK: no mismatches found.")`
			`return`

			`if report["missing_tables"]:`
			`logger.error("Missing tables:")`
			`for table_name in report["missing_tables"]:`
			`logger.error("- %s", table_name)`

			`if report["missing_columns"]:`
			`logger.error("Missing columns:")`
			`for column_name in report["missing_columns"]:`
			`logger.error("- %s", column_name)`

			`if report["missing_indexes"]:`
			`logger.warning("Missing indexes:")`
			`for index_name in report["missing_indexes"]:`
			`logger.warning("- %s", index_name)`


			`def determine_exit_code(report: dict[str, list[str]], strict_indexes: bool) -> int:`
			`has_table_or_column_mismatch = bool(report["missing_tables"] or report["missing_columns"])`
			`has_index_mismatch = bool(report["missing_indexes"])`

			`if has_table_or_column_mismatch:`
			`return 1`
			`if strict_indexes and has_index_mismatch:`
			`return 1`
			`return 0`


			`def main() -> int:`
			`args = parse_args()`

			`try:`
			`patch_database_url_for_local_dev()`
			`files = build_file_list(args)`
			`expected_tables, expected_indexes = parse_expected_schema(files)`
			`actual_tables, actual_columns, actual_indexes = query_actual_schema()`

			`report = compare_expected_vs_actual(`
			`expected_tables,`
			`expected_indexes,`
			`actual_tables,`
			`actual_columns,`
			`actual_indexes,`
			`)`

			`if args.json:`
			`payload = {`
			`"status": "ok" if determine_exit_code(report, args.strict_indexes) == 0 else "mismatch",`
			`"strict_indexes": args.strict_indexes,`
			`"parsed_files": [str(path.relative_to(ROOT)) for path in files],`
			`"missing_tables": report["missing_tables"],`
			`"missing_columns": report["missing_columns"],`
			`"missing_indexes": report["missing_indexes"],`
			`}`
			`print(json.dumps(payload, ensure_ascii=True))`
			`else:`
			`logger.info("Parsed migration files: %s", len(files))`
			`print_report(report)`

			`return determine_exit_code(report, args.strict_indexes)`
			`except Exception as exc:`
			`if args.json:`
			`print(json.dumps({"status": "error", "message": str(exc)}, ensure_ascii=True))`
			`else:`
			`logger.error("Validation failed: %s", exc)`
			`return 2`


			`if __name__ == "__main__":`
			`raise SystemExit(main())`