"""
Parquet Analyzer Main Component
Main analyzer that integrates metadata parsing and vector deserialization functionality
"""

import json
from pathlib import Path
from typing import Dict, List, Any, Optional

from .meta_parser import ParquetMetaParser
from .vector_deserializer import VectorDeserializer


class ParquetAnalyzer:
    """Main Parquet file analyzer class"""
    
    def __init__(self, file_path: str):
        """
        Initialize analyzer
        
        Args:
            file_path: parquet file path
        """
        self.file_path = Path(file_path)
        self.meta_parser = ParquetMetaParser(file_path)
        self.vector_deserializer = VectorDeserializer()
        
    def load(self) -> bool:
        """
        Load parquet file
        
        Returns:
            bool: whether loading was successful
        """
        return self.meta_parser.load()
    
    def analyze_metadata(self) -> Dict[str, Any]:
        """
        Analyze metadata information
        
        Returns:
            Dict: metadata analysis results
        """
        if not self.meta_parser.metadata:
            return {}
        
        return {
            "basic_info": self.meta_parser.get_basic_info(),
            "file_metadata": self.meta_parser.get_file_metadata(),
            "schema_metadata": self.meta_parser.get_schema_metadata(),
            "column_statistics": self.meta_parser.get_column_statistics(),
            "row_group_info": self.meta_parser.get_row_group_info(),
            "metadata_summary": self.meta_parser.get_metadata_summary()
        }
    
    def analyze_vectors(self) -> List[Dict[str, Any]]:
        """
        Analyze vector data
        
        Returns:
            List: vector analysis results list
        """
        if not self.meta_parser.metadata:
            return []
        
        vector_analysis = []
        column_stats = self.meta_parser.get_column_statistics()
        
        for col_stats in column_stats:
            if "statistics" in col_stats and col_stats["statistics"]:
                stats = col_stats["statistics"]
                col_name = col_stats["column_name"]
                
                # Check if there's binary data (vector)
                if "min" in stats:
                    min_value = stats["min"]
                    if isinstance(min_value, bytes):
                        min_analysis = VectorDeserializer.deserialize_with_analysis(
                            min_value, col_name
                        )
                        if min_analysis:
                            vector_analysis.append({
                                "column_name": col_name,
                                "stat_type": "min",
                                "analysis": min_analysis
                            })
                    elif isinstance(min_value, str) and len(min_value) > 32:
                        # May be hex string, try to convert back to bytes
                        try:
                            min_bytes = bytes.fromhex(min_value)
                            min_analysis = VectorDeserializer.deserialize_with_analysis(
                                min_bytes, col_name
                            )
                            if min_analysis:
                                vector_analysis.append({
                                    "column_name": col_name,
                                    "stat_type": "min",
                                    "analysis": min_analysis
                                })
                        except ValueError:
                            pass
                
                if "max" in stats:
                    max_value = stats["max"]
                    if isinstance(max_value, bytes):
                        max_analysis = VectorDeserializer.deserialize_with_analysis(
                            max_value, col_name
                        )
                        if max_analysis:
                            vector_analysis.append({
                                "column_name": col_name,
                                "stat_type": "max",
                                "analysis": max_analysis
                            })
                    elif isinstance(max_value, str) and len(max_value) > 32:
                        # May be hex string, try to convert back to bytes
                        try:
                            max_bytes = bytes.fromhex(max_value)
                            max_analysis = VectorDeserializer.deserialize_with_analysis(
                                max_bytes, col_name
                            )
                            if max_analysis:
                                vector_analysis.append({
                                    "column_name": col_name,
                                    "stat_type": "max",
                                    "analysis": max_analysis
                                })
                        except ValueError:
                            pass
        
        return vector_analysis
    
    def analyze(self) -> Dict[str, Any]:
        """
        Complete parquet file analysis
        
        Returns:
            Dict: complete analysis results
        """
        if not self.load():
            return {}
        
        return {
            "metadata": self.analyze_metadata(),
            "vectors": self.analyze_vectors()
        }
    
    def export_analysis(self, output_file: Optional[str] = None) -> str:
        """
        Export analysis results
        
        Args:
            output_file: output file path, if None will auto-generate
            
        Returns:
            str: output file path
        """
        if output_file is None:
            output_file = f"{self.file_path.stem}_analysis.json"
        
        analysis_result = self.analyze()
        
        with open(output_file, 'w', encoding='utf-8') as f:
            json.dump(analysis_result, f, indent=2, ensure_ascii=False)
        
        return output_file
    
    def print_summary(self):
        """Print analysis summary"""
        if not self.meta_parser.metadata:
            print("❌ No parquet file loaded")
            return
        
        # Print metadata summary
        self.meta_parser.print_summary()
        
        # Print vector analysis summary
        vector_analysis = self.analyze_vectors()
        if vector_analysis:
            print(f"\n🔍 Vector Analysis Summary:")
            print("=" * 60)
            for vec_analysis in vector_analysis:
                col_name = vec_analysis["column_name"]
                stat_type = vec_analysis["stat_type"]
                analysis = vec_analysis["analysis"]
                
                print(f"  Column: {col_name} ({stat_type})")
                print(f"    Vector Type: {analysis['vector_type']}")
                print(f"    Dimension: {analysis['dimension']}")
                
                if "statistics" in analysis and analysis["statistics"]:
                    stats = analysis["statistics"]
                    print(f"    Min: {stats.get('min', 'N/A')}")
                    print(f"    Max: {stats.get('max', 'N/A')}")
                    print(f"    Mean: {stats.get('mean', 'N/A')}")
                    print(f"    Std: {stats.get('std', 'N/A')}")
                
                if analysis["vector_type"] == "BinaryVector" and "statistics" in analysis:
                    stats = analysis["statistics"]
                    print(f"    Zero Count: {stats.get('zero_count', 'N/A')}")
                    print(f"    One Count: {stats.get('one_count', 'N/A')}")
                
                print()
    
    def get_vector_samples(self, column_name: str, sample_count: int = 5) -> List[Dict[str, Any]]:
        """
        Get vector sample data
        
        Args:
            column_name: column name
            sample_count: number of samples
            
        Returns:
            List: vector sample list
        """
        # This can be extended to read samples from actual data
        # Currently returns min/max from statistics as samples
        vector_analysis = self.analyze_vectors()
        samples = []
        
        for vec_analysis in vector_analysis:
            if vec_analysis["column_name"] == column_name:
                analysis = vec_analysis["analysis"]
                samples.append({
                    "type": vec_analysis["stat_type"],
                    "vector_type": analysis["vector_type"],
                    "dimension": analysis["dimension"],
                    "data": analysis["deserialized"][:sample_count] if analysis["deserialized"] else [],
                    "statistics": analysis.get("statistics", {})
                })
        
        return samples
    
    def compare_vectors(self, column_name: str) -> Dict[str, Any]:
        """
        Compare different vector statistics for the same column
        
        Args:
            column_name: column name
            
        Returns:
            Dict: comparison results
        """
        vector_analysis = self.analyze_vectors()
        column_vectors = [v for v in vector_analysis if v["column_name"] == column_name]
        
        if len(column_vectors) < 2:
            return {}
        
        comparison = {
            "column_name": column_name,
            "vector_count": len(column_vectors),
            "comparison": {}
        }
        
        for vec_analysis in column_vectors:
            stat_type = vec_analysis["stat_type"]
            analysis = vec_analysis["analysis"]
            
            comparison["comparison"][stat_type] = {
                "vector_type": analysis["vector_type"],
                "dimension": analysis["dimension"],
                "statistics": analysis.get("statistics", {})
            }
        
        return comparison
    
    def validate_vector_consistency(self) -> Dict[str, Any]:
        """
        Validate vector data consistency
        
        Returns:
            Dict: validation results
        """
        vector_analysis = self.analyze_vectors()
        validation_result = {
            "total_vectors": len(vector_analysis),
            "consistent_columns": [],
            "inconsistent_columns": [],
            "details": {}
        }
        
        # Group by column
        columns = {}
        for vec_analysis in vector_analysis:
            col_name = vec_analysis["column_name"]
            if col_name not in columns:
                columns[col_name] = []
            columns[col_name].append(vec_analysis)
        
        for col_name, vec_list in columns.items():
            if len(vec_list) >= 2:
                # Check if vector types are consistent for the same column
                vector_types = set(v["analysis"]["vector_type"] for v in vec_list)
                dimensions = set(v["analysis"]["dimension"] for v in vec_list)
                
                is_consistent = len(vector_types) == 1 and len(dimensions) == 1
                
                validation_result["details"][col_name] = {
                    "vector_types": list(vector_types),
                    "dimensions": list(dimensions),
                    "is_consistent": is_consistent,
                    "vector_count": len(vec_list)
                }
                
                if is_consistent:
                    validation_result["consistent_columns"].append(col_name)
                else:
                    validation_result["inconsistent_columns"].append(col_name)
        
        return validation_result
    
    def query_by_id(self, id_value: Any, id_column: str = None) -> Dict[str, Any]:
        """
        Query data by ID value
        
        Args:
            id_value: ID value to search for
            id_column: ID column name (if None, will try to find primary key column)
            
        Returns:
            Dict: query results
        """
        try:
            import pandas as pd
            import pyarrow.parquet as pq
        except ImportError:
            return {"error": "pandas and pyarrow are required for ID query"}
        
        if not self.meta_parser.metadata:
            return {"error": "Parquet file not loaded"}
        
        try:
            # Read the parquet file
            df = pd.read_parquet(self.file_path)
            
            # If no ID column specified, try to find primary key column
            if id_column is None:
                # Common primary key column names
                pk_candidates = ['id', 'ID', 'Id', 'pk', 'PK', 'primary_key', 'row_id', 'RowID']
                for candidate in pk_candidates:
                    if candidate in df.columns:
                        id_column = candidate
                        break
                
                if id_column is None:
                    # If no common PK found, use the first column
                    id_column = df.columns[0]
            
            if id_column not in df.columns:
                return {
                    "error": f"ID column '{id_column}' not found in the data",
                    "available_columns": list(df.columns)
                }
            
            # Query by ID
            result = df[df[id_column] == id_value]
            
            if result.empty:
                return {
                    "found": False,
                    "id_column": id_column,
                    "id_value": id_value,
                    "message": f"No record found with {id_column} = {id_value}"
                }
            
            # Convert to dict for JSON serialization
            record = result.iloc[0].to_dict()
            
            # Handle vector columns if present
            vector_columns = []
            for col_name, value in record.items():
                if isinstance(value, bytes) and len(value) > 32:
                    # This might be a vector, try to deserialize
                    try:
                        vector_analysis = VectorDeserializer.deserialize_with_analysis(value, col_name)
                        if vector_analysis:
                            vector_columns.append({
                                "column_name": col_name,
                                "analysis": vector_analysis
                            })
                            # Replace bytes with analysis summary
                            if vector_analysis["vector_type"] == "JSON":
                                # For JSON, show the actual content
                                record[col_name] = vector_analysis["deserialized"]
                            elif vector_analysis["vector_type"] == "Array":
                                # For Array, show the actual content
                                record[col_name] = vector_analysis["deserialized"]
                            else:
                                # For vectors, show type and dimension
                                record[col_name] = {
                                    "vector_type": vector_analysis["vector_type"],
                                    "dimension": vector_analysis["dimension"],
                                    "data_preview": vector_analysis["deserialized"][:5] if vector_analysis["deserialized"] else []
                                }
                    except Exception:
                        # If deserialization fails, keep as bytes but truncate for display
                        record[col_name] = f"<binary data: {len(value)} bytes>"
            
            return {
                "found": True,
                "id_column": id_column,
                "id_value": id_value,
                "record": record,
                "vector_columns": vector_columns,
                "total_columns": len(df.columns),
                "total_rows": len(df)
            }
            
        except Exception as e:
            return {"error": f"Query failed: {str(e)}"}
    
    def get_id_column_info(self) -> Dict[str, Any]:
        """
        Get information about ID columns in the data
        
        Returns:
            Dict: ID column information
        """
        try:
            import pandas as pd
        except ImportError:
            return {"error": "pandas is required for ID column analysis"}
        
        if not self.meta_parser.metadata:
            return {"error": "Parquet file not loaded"}
        
        try:
            df = pd.read_parquet(self.file_path)
            
            # Find potential ID columns
            id_columns = []
            for col in df.columns:
                col_data = df[col]
                
                # Check if column looks like an ID column
                is_unique = col_data.nunique() == len(col_data)
                is_numeric = pd.api.types.is_numeric_dtype(col_data)
                is_integer = pd.api.types.is_integer_dtype(col_data)
                
                id_columns.append({
                    "column_name": col,
                    "is_unique": is_unique,
                    "is_numeric": is_numeric,
                    "is_integer": is_integer,
                    "unique_count": col_data.nunique(),
                    "total_count": len(col_data),
                    "min_value": col_data.min() if is_numeric else None,
                    "max_value": col_data.max() if is_numeric else None,
                    "sample_values": col_data.head(5).tolist()
                })
            
            return {
                "total_columns": len(df.columns),
                "total_rows": len(df),
                "id_columns": id_columns,
                "recommended_id_column": self._get_recommended_id_column(id_columns)
            }
            
        except Exception as e:
            return {"error": f"ID column analysis failed: {str(e)}"}
    
    def _get_recommended_id_column(self, id_columns: List[Dict[str, Any]]) -> str:
        """
        Get recommended ID column based on heuristics
        
        Args:
            id_columns: List of ID column information
            
        Returns:
            str: Recommended ID column name
        """
        # Priority order for ID columns
        priority_names = ['id', 'ID', 'Id', 'pk', 'PK', 'primary_key', 'row_id', 'RowID']
        
        # First, look for columns with priority names that are unique
        for priority_name in priority_names:
            for col_info in id_columns:
                if (col_info["column_name"].lower() == priority_name.lower() and 
                    col_info["is_unique"]):
                    return col_info["column_name"]
        
        # Then, look for any unique integer column
        for col_info in id_columns:
            if col_info["is_unique"] and col_info["is_integer"]:
                return col_info["column_name"]
        
        # Finally, look for any unique column
        for col_info in id_columns:
            if col_info["is_unique"]:
                return col_info["column_name"]
        
        # If no unique column found, return the first column
        return id_columns[0]["column_name"] if id_columns else ""