notytex/scripts/performance_benchmark.py

#!/usr/bin/env python3
"""
Script de Benchmark des Performances - Baseline (JOUR 1-2)

Ce script établit la baseline de performance de l'application avant la migration
vers l'architecture refactorisée. Il mesure les métriques critiques :

1. Temps de réponse des opérations courantes
2. Consommation mémoire des calculs
3. Performance des requêtes de base de données
4. Temps de rendu des templates

Utilisé pour valider que la migration n'introduit pas de régressions de performance.
"""

import sys
import time
import psutil
import statistics
from typing import Dict, List, Any, Callable, Optional
from contextlib import contextmanager
from dataclasses import dataclass, asdict
from datetime import datetime
import json
from pathlib import Path

# Import Flask app pour tests
sys.path.append(str(Path(__file__).parent.parent))
from app import create_app
from models import db, Assessment, Student, ClassGroup, Exercise, GradingElement, Grade
from app_config import config_manager


@dataclass
class BenchmarkResult:
    """Résultat d'un benchmark individuel."""

    name: str
    execution_time_ms: float
    memory_usage_mb: float
    iterations: int
    min_time_ms: float
    max_time_ms: float
    avg_time_ms: float
    std_dev_ms: float
    success: bool
    error_message: Optional[str] = None
    metadata: Dict[str, Any] = None

    def __post_init__(self):
        if self.metadata is None:
            self.metadata = {}


@dataclass
class BenchmarkSuite:
    """Suite complète de benchmarks."""

    timestamp: datetime
    total_duration_ms: float
    python_version: str
    system_info: Dict[str, Any]
    results: List[BenchmarkResult]

    def to_json(self) -> str:
        """Convertit la suite en JSON pour persistance."""
        data = asdict(self)
        data['timestamp'] = self.timestamp.isoformat()
        return json.dumps(data, indent=2)

    @classmethod
    def from_json(cls, json_str: str) -> 'BenchmarkSuite':
        """Charge une suite depuis JSON."""
        data = json.loads(json_str)
        data['timestamp'] = datetime.fromisoformat(data['timestamp'])
        data['results'] = [BenchmarkResult(**result) for result in data['results']]
        return cls(**data)


class PerformanceBenchmarker:
    """
    Système de benchmark des performances.

    Mesure les métriques critiques de l'application pour établir une baseline
    avant la migration vers l'architecture refactorisée.
    """

    def __init__(self, app=None, iterations: int = 10):
        self.app = app or create_app('testing')
        self.iterations = iterations
        self.results: List[BenchmarkResult] = []
        self.start_time: Optional[float] = None

    @contextmanager
    def measure_performance(self, name: str, metadata: Dict[str, Any] = None):
        """
        Context manager pour mesurer les performances d'une opération.

        Usage:
            with benchmarker.measure_performance("operation_name"):
                # Code à mesurer
                result = expensive_operation()
        """
        process = psutil.Process()
        memory_before = process.memory_info().rss / 1024 / 1024  # MB

        start_time = time.perf_counter()
        error_message = None
        success = True

        try:
            yield
        except Exception as e:
            success = False
            error_message = str(e)
        finally:
            end_time = time.perf_counter()
            memory_after = process.memory_info().rss / 1024 / 1024  # MB

            execution_time_ms = (end_time - start_time) * 1000
            memory_usage_mb = memory_after - memory_before

            # Créer le résultat avec des valeurs temporaires
            # (sera mis à jour par run_benchmark pour les statistiques)
            result = BenchmarkResult(
                name=name,
                execution_time_ms=execution_time_ms,
                memory_usage_mb=memory_usage_mb,
                iterations=1,
                min_time_ms=execution_time_ms,
                max_time_ms=execution_time_ms,
                avg_time_ms=execution_time_ms,
                std_dev_ms=0.0,
                success=success,
                error_message=error_message,
                metadata=metadata or {}
            )

            self.results.append(result)

    def run_benchmark(self, name: str, operation: Callable, metadata: Dict[str, Any] = None) -> BenchmarkResult:
        """
        Exécute un benchmark sur une opération donnée.

        Args:
            name: Nom du benchmark
            operation: Fonction à benchmarker
            metadata: Métadonnées additionnelles

        Returns:
            BenchmarkResult avec les statistiques détaillées
        """
        times = []
        memory_usages = []
        success_count = 0
        last_error = None

        print(f"🔄 Exécution benchmark '{name}' ({self.iterations} itérations)...")

        for i in range(self.iterations):
            process = psutil.Process()
            memory_before = process.memory_info().rss / 1024 / 1024  # MB

            start_time = time.perf_counter()

            try:
                operation()
                success_count += 1
            except Exception as e:
                last_error = str(e)
                print(f"  ⚠️  Erreur itération {i+1}: {e}")

            end_time = time.perf_counter()
            memory_after = process.memory_info().rss / 1024 / 1024  # MB

            execution_time_ms = (end_time - start_time) * 1000
            memory_usage_mb = memory_after - memory_before

            times.append(execution_time_ms)
            memory_usages.append(memory_usage_mb)

        # Calcul des statistiques
        success = success_count > 0
        avg_time_ms = statistics.mean(times) if times else 0
        min_time_ms = min(times) if times else 0
        max_time_ms = max(times) if times else 0
        std_dev_ms = statistics.stdev(times) if len(times) > 1 else 0
        avg_memory_mb = statistics.mean(memory_usages) if memory_usages else 0

        result = BenchmarkResult(
            name=name,
            execution_time_ms=avg_time_ms,
            memory_usage_mb=avg_memory_mb,
            iterations=self.iterations,
            min_time_ms=min_time_ms,
            max_time_ms=max_time_ms,
            avg_time_ms=avg_time_ms,
            std_dev_ms=std_dev_ms,
            success=success,
            error_message=last_error if not success else None,
            metadata=metadata or {}
        )

        self.results.append(result)

        if success:
            print(f"  ✅ Terminé - {avg_time_ms:.2f}ms ± {std_dev_ms:.2f}ms")
        else:
            print(f"  ❌ Échec - {success_count}/{self.iterations} succès")

        return result

    def benchmark_grading_progress_calculation(self):
        """Benchmark du calcul de progression de notation."""

        with self.app.app_context():
            # Créer des données de test
            assessment = Assessment.query.first()
            if not assessment:
                print("⚠️  Pas d'évaluation trouvée, skip benchmark progression")
                return

            def calculate_progress():
                # Test de l'ancienne implémentation
                progress = assessment.grading_progress
                return progress

            self.run_benchmark(
                "grading_progress_calculation_legacy",
                calculate_progress,
                {"assessment_id": assessment.id, "method": "legacy_property"}
            )

    def benchmark_student_scores_calculation(self):
        """Benchmark du calcul des scores étudiants."""

        with self.app.app_context():
            assessment = Assessment.query.first()
            if not assessment:
                print("⚠️  Pas d'évaluation trouvée, skip benchmark scores")
                return

            def calculate_scores():
                # Test de l'ancienne implémentation
                scores = assessment.calculate_student_scores()
                return scores

            self.run_benchmark(
                "student_scores_calculation_legacy",
                calculate_scores,
                {
                    "assessment_id": assessment.id,
                    "method": "legacy_method",
                    "students_count": len(assessment.class_group.students)
                }
            )

    def benchmark_assessment_statistics(self):
        """Benchmark du calcul des statistiques d'évaluation."""

        with self.app.app_context():
            assessment = Assessment.query.first()
            if not assessment:
                print("⚠️  Pas d'évaluation trouvée, skip benchmark statistiques")
                return

            def calculate_statistics():
                # Test de l'ancienne implémentation
                stats = assessment.get_assessment_statistics()
                return stats

            self.run_benchmark(
                "assessment_statistics_calculation_legacy",
                calculate_statistics,
                {
                    "assessment_id": assessment.id,
                    "method": "legacy_method",
                    "exercises_count": len(assessment.exercises)
                }
            )

    def benchmark_database_queries(self):
        """Benchmark des requêtes de base de données critiques."""

        with self.app.app_context():
            def query_assessments():
                # Requête typique : liste des évaluations avec relations
                assessments = Assessment.query.options(
                    db.joinedload(Assessment.class_group),
                    db.joinedload(Assessment.exercises)
                ).all()
                return len(assessments)

            self.run_benchmark(
                "database_query_assessments_with_relations",
                query_assessments,
                {"query_type": "assessments_with_joinedload"}
            )

            def query_grades():
                # Requête typique : toutes les notes
                grades = Grade.query.join(GradingElement).join(Exercise).join(Assessment).all()
                return len(grades)

            self.run_benchmark(
                "database_query_grades_complex_join",
                query_grades,
                {"query_type": "grades_with_complex_joins"}
            )

    def benchmark_config_operations(self):
        """Benchmark des opérations de configuration."""

        with self.app.app_context():
            def get_scale_values():
                # Test des opérations de configuration fréquentes
                values = config_manager.get_competence_scale_values()
                return len(values)

            self.run_benchmark(
                "config_get_competence_scale_values",
                get_scale_values,
                {"operation": "get_competence_scale_values"}
            )

            def validate_grade_values():
                # Test de validation de notes
                test_values = ['15.5', '2', '.', 'd', 'invalid']
                results = []
                for value in test_values:
                    results.append(config_manager.validate_grade_value(value, 'notes'))
                    results.append(config_manager.validate_grade_value(value, 'score'))
                return len(results)

            self.run_benchmark(
                "config_validate_grade_values",
                validate_grade_values,
                {"operation": "validate_multiple_grade_values"}
            )

    def run_full_suite(self) -> BenchmarkSuite:
        """Exécute la suite complète de benchmarks."""

        print("🚀 Démarrage de la suite de benchmarks des performances")
        print(f"📊 Configuration: {self.iterations} itérations par test")
        print("=" * 60)

        self.start_time = time.perf_counter()
        self.results = []

        # Benchmarks des fonctionnalités core
        self.benchmark_grading_progress_calculation()
        self.benchmark_student_scores_calculation()
        self.benchmark_assessment_statistics()

        # Benchmarks des requêtes de base de données
        self.benchmark_database_queries()

        # Benchmarks des opérations de configuration
        self.benchmark_config_operations()

        end_time = time.perf_counter()
        total_duration_ms = (end_time - self.start_time) * 1000

        # Informations système
        system_info = {
            'cpu_count': psutil.cpu_count(),
            'cpu_freq': psutil.cpu_freq()._asdict() if psutil.cpu_freq() else None,
            'memory_total_gb': psutil.virtual_memory().total / 1024**3,
            'python_version': sys.version,
            'platform': sys.platform
        }

        suite = BenchmarkSuite(
            timestamp=datetime.utcnow(),
            total_duration_ms=total_duration_ms,
            python_version=sys.version.split()[0],
            system_info=system_info,
            results=self.results
        )

        print("\n" + "=" * 60)
        print("📈 RÉSUMÉ DES PERFORMANCES")
        print("=" * 60)

        for result in self.results:
            status = "✅" if result.success else "❌"
            print(f"{status} {result.name:40} {result.avg_time_ms:8.2f}ms ± {result.std_dev_ms:6.2f}ms")

        print(f"\n⏱️  Durée totale: {total_duration_ms:.2f}ms")
        print(f"📊 Tests réussis: {sum(1 for r in self.results if r.success)}/{len(self.results)}")

        return suite

    def save_baseline(self, filepath: str = "performance_baseline.json"):
        """Sauvegarde la baseline de performance."""

        suite = self.run_full_suite()

        baseline_path = Path(filepath)
        baseline_path.write_text(suite.to_json())

        print(f"\n💾 Baseline sauvegardée: {baseline_path.absolute()}")
        return suite

    def compare_with_baseline(self, baseline_path: str = "performance_baseline.json") -> Dict[str, Any]:
        """Compare les performances actuelles avec la baseline."""

        baseline_file = Path(baseline_path)
        if not baseline_file.exists():
            raise FileNotFoundError(f"Baseline non trouvée: {baseline_path}")

        baseline_suite = BenchmarkSuite.from_json(baseline_file.read_text())
        current_suite = self.run_full_suite()

        comparison = {
            'baseline_date': baseline_suite.timestamp.isoformat(),
            'current_date': current_suite.timestamp.isoformat(),
            'comparisons': [],
            'summary': {
                'regressions': 0,
                'improvements': 0,
                'stable': 0
            }
        }

        # Créer un dictionnaire de la baseline pour comparaison facile
        baseline_by_name = {r.name: r for r in baseline_suite.results}

        for current_result in current_suite.results:
            name = current_result.name
            baseline_result = baseline_by_name.get(name)

            if not baseline_result:
                continue

            # Calcul du changement en pourcentage
            time_change_pct = ((current_result.avg_time_ms - baseline_result.avg_time_ms)
                              / baseline_result.avg_time_ms * 100)

            # Détermination du statut (régression si > 10% plus lent)
            if time_change_pct > 10:
                status = 'regression'
                comparison['summary']['regressions'] += 1
            elif time_change_pct < -10:
                status = 'improvement'
                comparison['summary']['improvements'] += 1
            else:
                status = 'stable'
                comparison['summary']['stable'] += 1

            comparison['comparisons'].append({
                'name': name,
                'baseline_time_ms': baseline_result.avg_time_ms,
                'current_time_ms': current_result.avg_time_ms,
                'time_change_pct': time_change_pct,
                'status': status
            })

        # Affichage du résumé de comparaison
        print("\n" + "=" * 60)
        print("📊 COMPARAISON AVEC BASELINE")
        print("=" * 60)

        for comp in comparison['comparisons']:
            status_icon = {'regression': '🔴', 'improvement': '🟢', 'stable': '🟡'}[comp['status']]
            print(f"{status_icon} {comp['name']:40} {comp['time_change_pct']:+7.1f}%")

        summary = comparison['summary']
        print(f"\n📈 Régressions: {summary['regressions']}")
        print(f"📈 Améliorations: {summary['improvements']}")
        print(f"📈 Stable: {summary['stable']}")

        return comparison


def main():
    """Point d'entrée principal du script."""

    import argparse

    parser = argparse.ArgumentParser(description="Benchmark des performances Notytex")
    parser.add_argument('--iterations', type=int, default=10,
                       help='Nombre d\'itérations par test (défaut: 10)')
    parser.add_argument('--baseline', action='store_true',
                       help='Créer une nouvelle baseline')
    parser.add_argument('--compare', type=str, metavar='BASELINE_FILE',
                       help='Comparer avec une baseline existante')
    parser.add_argument('--output', type=str, default='performance_baseline.json',
                       help='Fichier de sortie pour la baseline')

    args = parser.parse_args()

    benchmarker = PerformanceBenchmarker(iterations=args.iterations)

    if args.baseline:
        benchmarker.save_baseline(args.output)
    elif args.compare:
        benchmarker.compare_with_baseline(args.compare)
    else:
        benchmarker.run_full_suite()


if __name__ == '__main__':
    main()