Token Insight Analysis

A project for analyzing tokenization patterns and issues in GPT-2 model, focusing on different types of sentences including garden path sentences and complex structures.

Project Structure

token_insight_analysis/
├── data/               # Input data and datasets
├── src/               # Source code
├── results/           # Analysis results and outputs
├── notebooks/         # Jupyter notebooks for analysis
├── venv/              # Virtual environment
└── requirements.txt   # Project dependencies

Setup

Create and activate virtual environment:

python3 -m venv venv
source venv/bin/activate  # On Unix/macOS
# or
.\venv\Scripts\activate  # On Windows

Install dependencies:

pip install -r requirements.txt

Dataset

The project uses a curated dataset of sentences categorized into:

Simple sentences
Complex sentences
Garden path sentences

The dataset is stored in data/input_sentences.json with metadata about each sentence.

Analysis Focus

This project will analyze:

Tokenization patterns in GPT-2
Differences in tokenization between sentence types
Special cases in garden path sentences
Token boundary analysis
Surprisal calculations

Next Steps

Implement tokenization analysis
Create visualization tools
Analyze patterns across different sentence types
Generate insights and reports

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data		data
models		models
results		results
src		src
trained_tokenizers		trained_tokenizers
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt
token_insight_analysis.sh		token_insight_analysis.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Token Insight Analysis

Project Structure

Setup

Dataset

Analysis Focus

Next Steps

About

Uh oh!

Releases

Packages

Uh oh!

Languages

anusha-chebolu/token-insight-analysis

Folders and files

Latest commit

History

Repository files navigation

Token Insight Analysis

Project Structure

Setup

Dataset

Analysis Focus

Next Steps

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages