"""
HTML stripping and content filter (sports, vapid, insipid).
No internal dependencies.
"""

import re
from html import unescape
from html.parser import HTMLParser


# ─── HTML STRIPPING ───────────────────────────────────────
class _Strip(HTMLParser):
    def __init__(self):
        super().__init__()
        self._t = []

    def handle_data(self, d):
        self._t.append(d)

    def text(self):
        return "".join(self._t).strip()


def strip_tags(html):
    s = _Strip()
    s.feed(unescape(html or ""))
    return s.text()


# ─── CONTENT FILTER ───────────────────────────────────────
_SKIP_RE = re.compile(
    r'\b(?:'
    # ── sports ──
    r'football|soccer|basketball|baseball|softball|tennis|golf|cricket|rugby|'
    r'hockey|lacrosse|volleyball|badminton|'
    r'nba|nfl|nhl|mlb|mls|fifa|uefa|'
    r'premier league|champions league|la liga|serie a|bundesliga|'
    r'world cup|super bowl|world series|stanley cup|'
    r'playoff|playoffs|touchdown|goalkeeper|striker|quarterback|'
    r'slam dunk|home run|grand slam|offside|halftime|'
    r'batting|wicket|innings|'
    r'formula 1|nascar|motogp|'
    r'boxing|ufc|mma|'
    r'marathon|tour de france|'
    r'transfer window|draft pick|relegation|'
    # ── vapid / insipid ──
    r'kardashian|jenner|reality tv|reality show|'
    r'influencer|viral video|tiktok|instagram|'
    r'best dressed|worst dressed|red carpet|'
    r'horoscope|zodiac|gossip|bikini|selfie|'
    r'you won.t believe|what happened next|'
    r'celebrity couple|celebrity feud|baby bump'
    r')\b',
    re.IGNORECASE
)


def skip(title):
    """Return True if headline is sports, vapid, or insipid."""
    return bool(_SKIP_RE.search(title))