Speculative inferences about path dependence in LLM supervised fine-tuning from results on linear mode connectivity and model souping